站在这个时间点上看,2024年国内通过合规渠道能采购的英伟达的高端显卡只有H20 [1, 2]。Nvidia H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力,是值得推荐的一款GPU卡(单看96GB的HBM3显存配置,也推荐大家使用H20)。
笔者预测2024年Nvidia H20的销售情况与2023年Nvidia H800的销售情况会比较类似,会从刚开始大家观望到后来大家抢购(再到买不到)。本文就谈谈Nvidia H20的实用价值。
二、H20简介与对比Nvidia H20是从Nvidia H200裁剪而来的[1, 2, 3],保留了900GB/s的卡间高速互联带宽(NVLink4.0和NVSwitch3.0)[4],并支持PCIe Gen5(128GB/s双向带宽)。PCIe Gen5连接支持400GbE集群网络,有利于组建超大规模GPU集群和保持较高的集群线性加速比。
在算力方面,H20峰值算力只有H200峰值算力的14.96%(~15%),H20峰值算力相对较低(被严重裁剪)。
在L2 Cache配置方面,H20配置了60MB的L2 Cache,比H200有更大的L2 Cache。Nvidia H20拥有96GB的HBM3显存,显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪,但是H20的显存配置相对于国产AI芯片还是有明显优势的。
Nvidia GPU
FP16算力(稠密,TFLOPS)
FP8算力(稠密,TFLOPS)
L2 Cache(MB)
显存容量(GB)
显存带宽(TB/s)
卡间互联带宽(GB/s)
PCIe连接
H200
989.5
1979
50
141
4.8
900
Gen5
H20
148
296
60
96
4.0
900
Gen5
当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800 [5, 6],以及华为昇腾910B-A2 [7, 8],与现有的算力资源相比,Nvidia H20也有其独特的优势。
例如,相较于Nvidia A800,Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势;相较于Nvidia H800,Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势;相较于华为昇腾910B-A2,Nvidia H20在FP8算力、显存配置、卡间互联带宽等方面都有显著优势。
AI加速卡
FP16算力(稠密,TFLOPS)
FP8算力(稠密,TFLOPS)
L2 Cache(MB)
显存容量(GB)
显存带宽(TB/s)
卡间互联带宽(GB/s)
PCIe连接
H800
989.5
1979
50
80
3.35
400
Gen5
H20
148
296
60
96
4.0
900
Gen5
A800
312
不支持
80
80
2.0
400
Gen4(64 GB/s)
910B-A2
376
不支持
64
64
1.6
56(392 when 1-to-7)
Gen5
三、H20 for 大模型训练Nvidia H20拥有非常高的卡间互联带宽,并支持PCIe Gen5,在配备400GbE集群网络情况下,H20集群线性加速比接近于1,使得H20卡非常适合用来组建大规模集群。
使用Nvidia H20执行大模型训练任务,基于目前的一些测试结果,对于BF16混合精度训练,在集群规模较小的情况下(例如,512 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的62%(即集群规模较小的情况下,H20的性能是A800的性能的~60%)[11, 12];在集群规模较大的情况下(例如,4096 x H20),Nvidia H20训练吞吐大概可以达到Nvidia A800训练吞吐的70%(即集群规模较大的情况下,H20的性能是A800的性能的~70%)。
Huawei 910B-A2(over A800)
Nvidia H20(over A800)
Nvidia A800
较小集群规模(~512卡)
75% ~ 85%
60% ~ 70%
100%
较大集群规模(~4096卡)
60% ~ 70%
65% ~ 75%
90%(线性加速比)
FP8计算
不支持
大于100%
100%
值得说明的是,FP8混合精度训练方法还不成熟,在现阶段只能支持规模较小的LLM模型训练(例如,34B及以下)。未来随着技术的演讲,FP8混合精度训练会成为主流技术。
四、H20 for 大模型推理Nvidia H20拥有非常好的显存配置以及较好的FP8峰值算力,适合用于LLM推理。使用Nvidia H20执行大模型推理任务,特别是LLM推理任务,Nvidia H20推理性能比Nvidia H800推理性能高出20%(例如,对比显存带宽:4/3.35 ~= 1.19 = 120%)[2, 9, 10]。
随着未来LLM模型参数规模越来越大,需要使用拥有高配显存的AI芯片来进行推理服务,使用Nvidia H20执行超大LLM模型推理任务,是性价比更高的选择[1, 2, 9, 10]。
此外,也可以使用Nvidia H20置换现在推理服务中使用A800和H800卡,这样就可以有更多的A800卡和H800卡用于大模型训练任务。
Huawei 910B-A2(over A800)
Nvidia H20(over A800)
Nvidia A800
推理实例(~单机8卡)
75% ~ 85%
100% ~ 120%
100%
推理实例(~32卡)
70% ~ 80%
100% ~ 125%
100%
综上所述,Nvidia H20核心价值在于:(1)使用H20组建大规模集群用于大模型训练(例如,FP8混合精度训练);(2)H20适合用于超大规模LLM推理(FP8计算);(3)H20价格适中(性价比高)[1, 13, 14]。
五、参考文献NVIDIA Readying H20 AI GPU for Chinese MarketNvidia's New China AI Chips Circumvent US Restrictions | H20 Faster Than H100 | Huawei Ascend 910BNVIDIA H200 Tensor Core GPUNVLink & NVSwitch for Advanced Multi-GPU CommunicationNVIDIA A800 PCIe 80 GB SpecsNVIDIA H800 SXM5 SpecsGPU 进阶笔记(二):华为昇腾 910B GPU 相关(2023)科大讯回应美国AI芯片管制:华为昇腾910B基本可对标英伟达A100Compared to the H100, how does the performance of NVIDIA's AI chips specially designed for China, fare?为何英伟达H20推理性能超过H100?_腾讯新闻英伟达对华“特供”的H20、RTX4090D将受限? - 芯智讯英伟达阻击国产 AI 芯片,“中国特供版”H20综合算力比H100降80%英伟达H20性能下降80%,价格对标华为,阻击国产AI芯片?中国成英伟达AI芯片最大变数!调研菌:NVIDIA H20或将与国产算力同步高增以上内容转自知乎用户程勇