MLPerf测试结果公布,英伟达B200推理性能达AMDMI300X的4倍

逢纪说科技 2024-09-01 01:26:27

英伟达 (NVIDIA) 发布了其Blackwell架构AI芯片B200首个在Llama 2 70B大模型上的MLPerf Inference 4.1测试结果,显示B200的性能相较上一代的Hopper H100有4倍的提升,即性能提升了300%。在此同时,AMD也公布了8个MI300X GPU在相同测试中的成绩,达到了集成8个H100与英伟达DGX H100相当的成绩,这也显示了AI芯片市场的竞争激烈。

具体来说,单个英伟达Blackwell B200 GPU在AI推理测试中,可以每秒生成10,755个Token。另外,在脱机参考测试中,则可以每秒生成11,264个Token。作为比较,虽然采用4个Hopper H100 GPU的服务器提供了接近的结果,但是单个H00 GPU每秒生成的Token数则仅有B200 GPU的约1/4。这也证明了英伟达的说法,即单个Blackwell B200 GPU的速度,达到了单个Hopper H100 GPU的约3.7至4倍。

而针对这样的测试数字、市场进行了相关分析。首先,英伟达的Blackwell B200处理器使用的是FP4精度,因为其第五代Tensor Core支持该格式,而采用Hopper的H100则仅支持和使用FP8。虽然MLPerf指南允许这些不同的格式,但Blackwell B200中的FP4性能使其相比FP8传输量增加了一倍,因此这是需要注意的重要事项。

接下来,英伟达在使用单个B200与四个H100 GPU对比方面似乎有些差异。因为,扩展从来都不是完美的,因此单个GPU往往是GPU性能的最佳情况。而MLPerf 4.1并没有列出单个GPU H100结果,只有一个B200结果,这使得它们之间的比较并不公平。然而,单个H200的性能达到了每秒4,488个Token,这代表着B200在该特定测试中,速度达到了H100的2.5倍,即快了150%。

再者,双方之间HBM容量和带宽差异也是影响因素,并且存在很大的跨代差异。测试的B200 GPU配备180GB HBM3E内存,而H100 SXM配备80GB HBM,H200则是配备96GB HBM3和高达144GB的HBM3E。其中,具有96GB HBM3的单个H200在脱机模式下仅达到了3,114个Token。因此,数字格式、GPU数量、内存容量和配置都存在差异,这些差异就会影响其测试出来的结果。而且,许多差异仅仅是因为Blackwell B200是一款具有更新架构的新芯片,所以进一步都影响了其最终测试性能表现。

回到配备141GB HBM3E内存的英伟达H200上,它不仅在以Llama 2 70B大型语言模型为特色的生成式AI基准测试中也表现出色,而且在数据中心类别的每一项测试中都表现出色。再来看,AMD公布同样的MLPerf Inference 4.1测试,其MI300X的成绩。使用搭配AMD Genoa CPU及8个MI300X的服务器,在测试中性能达到了每秒21,028个Token,而在脱机参考测试中,性能达到了每秒223,514个Token。至于,使用AMD Turin CPU及8个MI300X的服务器,测试中性能达到了每秒22,021个Token,在脱机参考测试中,性能达到了24,110个Token。

这样的结果,代表使用8个MI300X的系统达到了接近英伟达DGX H100系统的成绩,差异大概在2-3%以内,也代表在测试中,单个MI300X GPU的性能达到了与英伟达H100 GPU相当的水准。而综合比较单个AMD MI300X与英伟达H200和B200的MLPerf Inference 4.1测试成绩来看,英伟达B200的成绩也是遥遥领先于MI300X和H200,其性能平均达到了MI300X的4倍左右,也达到了H200的约2.5倍左右。这也进一步凸显了英伟达B200性能的领先性。

同样需要指出的是,AMD MI300X配备了更大的192GB HBM,而B200则是180GB HBM。不过,MI300X的TDP功耗为750W,但英伟达H200和B200的TDP功耗则高达1,000W。

(首图来源:科技新报摄)

0 阅读:32

逢纪说科技

简介:感谢大家的关注