一、政策限制与迭代背景

2022年10月首次管制

标准要求：芯片 I/O 带宽 ≥ 600GB/s 且算力 ≥ 4800 TFLOPS
受影响产品：A100 直接禁售（H100当时尚未发布）
英伟达对策：推出 A800/H800，通过降低互联带宽（NVLink 从 900GB/s 降至 400GB/s）规避限制

2023年10月升级管制

新规则：引入综合算力（TPP）和性能密度（PD）双重标准
TPP ≥ 16000 或 TPP ≥ 16000 且 PD ≥ 5.92
影响扩大：A800/H800 被纳入限制范围，消费级 RTX 4090 同样受限
英伟达对策：开发新一代特供芯片（H20/L20/L2），大幅降低算力和性能密度

二、削减路径与技术演进趋势

芯片世代	代表产品	核心限制手段	性能降幅
第一代	A800/H800	带宽限制（NVLink 砍半）	互联效率降约55%
第二代	H20/L20	物理阉割+封装层修改	算力降约96%
消费级	RTX 4090D	核心数削减	整体性能降约10%
下一代	RTX 5090D	AI锁频+多卡互连禁止	动态锁算力

三、H200 vs H20：性能倍数（AI / 大模型场景）

H200 整体性能约为 H20 的 6–7 倍，核心差距在算力与显存。

1. 核心规格对比（SXM 版）

参数	H200	H20	H200/H20 倍数
FP8 算力	3958 TFLOPS	296 TFLOPS	≈13.4 倍
显存	141GB HBM3e	96GB HBM3	≈1.47 倍
显存带宽	4.8 TB/s	4.0 TB/s	≈1.2 倍
NVLink	900 GB/s	300 GB/s	3 倍
架构	Hopper（完整）	Hopper（合规阉割）	—

2. 实际大模型性能（典型场景）

Llama 2 70B 推理：H200 ≈ 1.7–2 倍 H20
GPT-3 175B 训练/推理：H200 ≈ 6–7 倍 H20
综合 TPP 性能密度：H200 ≈ 6.7 倍 H20

3. 关键说明

H200 vs H20 本质：H200 是 H100 满血升级版；H20 是 H100 合规阉割版（算力砍约 92.5%）。
性能倍数差异：纯算力 ≈13 倍；大模型综合 ≈6–7 倍；长上下文推理 ≈1.7–2 倍。

选购参考：

训练千亿级模型：优先 H200 / B200
推理/微调：H200 > H100 > H20
预算有限：L40S / RTX 5090

四、英伟达数据中心 AI 显卡性能天梯（2026 最新）

1. 旗舰梯队（Blackwell 架构，2025–2026）

GB200（Grace+Blackwell 超芯片）：FP8 ≈ 32 PFLOPS，HBM3e 288GB，带宽 12 TB/s（整机柜节点）
B200：FP8 ≈ 19.8 PFLOPS，HBM3e 192GB，带宽 8 TB/s
B100：FP8 ≈ 13.4 PFLOPS，HBM3e 144GB，带宽 6.4 TB/s

2. 顶级梯队（Hopper 架构，2024–2026）

H200：FP8 3958 TFLOPS，141GB HBM3e，带宽 4.8 TB/s
H100：FP8 3958 TFLOPS，80GB HBM3，带宽 3.35 TB/s
A100 80GB：FP16 312 TFLOPS，80GB HBM2e，带宽 2 TB/s

3. 主流/合规梯队（中国特供/降配）

H20：FP8 296 TFLOPS，96GB HBM3，带宽 4.0 TB/s
L40S：FP8 479 TFLOPS，48GB GDDR6X，带宽 1 TB/s
L4：FP8 120 TFLOPS，24GB GDDR6，带宽 0.5 TB/s

4. 消费级/工作站（兼顾 AI 与游戏）

RTX 5090D/5090（Blackwell）：FP8 ≈ 3.4 PFLOPS，32GB GDDR7
RTX 4090/4090D（Ada）：FP8 ≈ 1.3 PFLOPS，24GB GDDR6X

五、NVIDIA 显卡性能对比（以 H20 为基准）

H200 vs H20：≈13.4 倍（纯 FP8 算力）；大模型综合性能约 6–7 倍；长上下文推理约 1.7–2 倍。
H100 vs H20：≈13.4 倍（纯 FP8 算力）；大模型综合性能约 6–7 倍；长上下文推理约 1.6–2 倍。
H800 vs H20：≈6.7 倍（纯 FP8 算力）；大模型综合性能约 4–5 倍；长上下文推理约 1.3–1.5 倍。
B100 vs H20：≈45.3 倍（纯 FP8 算力）；大模型综合性能约 35 倍；长上下文推理约 4–5 倍。
B200 vs H20：≈66.9 倍（纯 FP8 算力）；大模型综合性能约 50 倍；长上下文推理约 5–6 倍。
RTX 5090 vs H20：≈11.5 倍（纯 FP8 算力）；大模型综合性能约 5–6 倍；长上下文推理约 2.5–3 倍。
RTX 4090/4090D vs H20：≈4.4 倍（纯 FP8 算力）；大模型综合性能约 2.5–3 倍；长上下文推理约 2–2.5 倍。
L40S vs H20：≈1.6 倍（纯 FP8 算力）；大模型综合性能约 1.4–1.6 倍；长上下文推理约 1.2–1.4 倍。
L4 vs H20：≈0.4 倍（纯 FP8 算力）；大模型综合性能约 0.3–0.4 倍；长上下文推理约 0.3–0.4 倍。
GB200 vs H20：≈108.1 倍（纯 FP8 算力）；大模型综合性能约 80 倍；长上下文推理约 8–10 倍（整机柜节点，非单卡）。