算力平台：NvidiaH20的实用价值 - 科技资讯(世良情感网)

一、引言

站在这个时间点上看，2024年国内通过合规渠道能采购的英伟达的高端显卡只有H20 [1, 2]。Nvidia H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力，是值得推荐的一款GPU卡（单看96GB的HBM3显存配置，也推荐大家使用H20）。

笔者预测2024年Nvidia H20的销售情况与2023年Nvidia H800的销售情况会比较类似，会从刚开始大家观望到后来大家抢购（再到买不到）。本文就谈谈Nvidia H20的实用价值。

二、H20简介与对比

Nvidia H20是从Nvidia H200裁剪而来的[1, 2, 3]，保留了900GB/s的卡间高速互联带宽（NVLink4.0和NVSwitch3.0）[4]，并支持PCIe Gen5（128GB/s双向带宽）。PCIe Gen5连接支持400GbE集群网络，有利于组建超大规模GPU集群和保持较高的集群线性加速比。

在算力方面，H20峰值算力只有H200峰值算力的14.96%（～15%），H20峰值算力相对较低（被严重裁剪）。

在L2 Cache配置方面，H20配置了60MB的L2 Cache，比H200有更大的L2 Cache。Nvidia H20拥有96GB的HBM3显存，显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪，但是H20的显存配置相对于国产AI芯片还是有明显优势的。

Nvidia GPU

FP16算力（稠密，TFLOPS）

FP8算力（稠密，TFLOPS）

L2 Cache（MB）

显存容量（GB）

显存带宽（TB/s）

卡间互联带宽（GB/s）

PCIe连接

H200

989.5

1979

141

4.8

900

Gen5

H20

148

296

4.0

900

Gen5

当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800 [5, 6]，以及华为昇腾910B-A2 [7, 8]，与现有的算力资源相比，Nvidia H20也有其独特的优势。

例如，相较于Nvidia A800，Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势；相较于Nvidia H800，Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势；相较于华为昇腾910B-A2，Nvidia H20在FP8算力、显存配置、卡间互联带宽等方面都有显著优势。

AI加速卡

FP16算力（稠密，TFLOPS）

FP8算力（稠密，TFLOPS）

L2 Cache（MB）

显存容量（GB）

显存带宽（TB/s）

卡间互联带宽（GB/s）

PCIe连接

H800

989.5

1979

3.35

400

Gen5

H20

148

296

4.0

900

Gen5

A800

312

不支持

2.0

400

Gen4（64 GB/s）

910B-A2

376

不支持

1.6

56（392 when 1-to-7）

Gen5

三、H20 for 大模型训练

Nvidia H20拥有非常高的卡间互联带宽，并支持PCIe Gen5，在配备400GbE集群网络情况下，H20集群线性加速比接近于1，使得H20卡非常适合用来组建大规模集群。

使用Nvidia H20执行大模型训练任务，基于目前的一些测试结果，对于BF16混合精度训练，在集群规模较小的情况下（例如，512 x H20），Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的62%（即集群规模较小的情况下，H20的性能是A800的性能的～60%）[11, 12]；在集群规模较大的情况下（例如，4096 x H20），Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的70%（即集群规模较大的情况下，H20的性能是A800的性能的～70%）。

Huawei 910B-A2（over A800）

Nvidia H20（over A800）

Nvidia A800

较小集群规模（～512卡）

75% ~ 85%

60% ~ 70%

100%

较大集群规模（～4096卡）

60% ~ 70%

65% ~ 75%

90%（线性加速比）

FP8计算

不支持

大于100%

100%

值得说明的是，FP8混合精度训练方法还不成熟，在现阶段只能支持规模较小的LLM模型训练（例如，34B及以下）。未来随着技术的演讲，FP8混合精度训练会成为主流技术。

四、H20 for 大模型推理

Nvidia H20拥有非常好的显存配置以及较好的FP8峰值算力，适合用于LLM推理。使用Nvidia H20执行大模型推理任务，特别是LLM推理任务，Nvidia H20推理性能比Nvidia H800推理性能高出20%（例如，对比显存带宽：4/3.35 ～= 1.19 = 120%）[2, 9, 10]。

随着未来LLM模型参数规模越来越大，需要使用拥有高配显存的AI芯片来进行推理服务，使用Nvidia H20执行超大LLM模型推理任务，是性价比更高的选择[1, 2, 9, 10]。

此外，也可以使用Nvidia H20置换现在推理服务中使用A800和H800卡，这样就可以有更多的A800卡和H800卡用于大模型训练任务。

Huawei 910B-A2（over A800）

Nvidia H20（over A800）

Nvidia A800

推理实例（～单机8卡）

75% ~ 85%

100% ~ 120%

100%

推理实例（～32卡）

70% ~ 80%

100% ~ 125%

100%

综上所述，Nvidia H20核心价值在于：（1）使用H20组建大规模集群用于大模型训练（例如，FP8混合精度训练）；（2）H20适合用于超大规模LLM推理（FP8计算）；（3）H20价格适中（性价比高）[1, 13, 14]。

五、参考文献NVIDIA Readying H20 AI GPU for Chinese MarketNvidia's New China AI Chips Circumvent US Restrictions | H20 Faster Than H100 | Huawei Ascend 910BNVIDIA H200 Tensor Core GPUNVLink & NVSwitch for Advanced Multi-GPU CommunicationNVIDIA A800 PCIe 80 GB SpecsNVIDIA H800 SXM5 SpecsGPU 进阶笔记（二）：华为昇腾 910B GPU 相关（2023）科大讯回应美国AI芯片管制：华为昇腾910B基本可对标英伟达A100Compared to the H100, how does the performance of NVIDIA's AI chips specially designed for China, fare?为何英伟达H20推理性能超过H100？_腾讯新闻英伟达对华“特供”的H20、RTX4090D将受限？ - 芯智讯英伟达阻击国产 AI 芯片，“中国特供版”H20综合算力比H100降80%英伟达H20性能下降80%，价格对标华为，阻击国产AI芯片？中国成英伟达AI芯片最大变数！调研菌：NVIDIA H20或将与国产算力同步高增

以上内容转自知乎用户程勇