MLPerf测试结果公布，英伟达B200推理性能达AMDMI300X的4倍

英伟达 (NVIDIA) 发布了其Blackwell架构AI芯片B200首个在Llama 2 70B大模型上的MLPerf Inference 4.1测试结果，显示B200的性能相较上一代的Hopper H100有4倍的提升，即性能提升了300%。在此同时，AMD也公布了8个MI300X GPU在相同测试中的成绩，达到了集成8个H100与英伟达DGX H100相当的成绩，这也显示了AI芯片市场的竞争激烈。

具体来说，单个英伟达Blackwell B200 GPU在AI推理测试中，可以每秒生成10,755个Token。另外，在脱机参考测试中，则可以每秒生成11,264个Token。作为比较，虽然采用4个Hopper H100 GPU的服务器提供了接近的结果，但是单个H00 GPU每秒生成的Token数则仅有B200 GPU的约1/4。这也证明了英伟达的说法，即单个Blackwell B200 GPU的速度，达到了单个Hopper H100 GPU的约3.7至4倍。

而针对这样的测试数字、市场进行了相关分析。首先，英伟达的Blackwell B200处理器使用的是FP4精度，因为其第五代Tensor Core支持该格式，而采用Hopper的H100则仅支持和使用FP8。虽然MLPerf指南允许这些不同的格式，但Blackwell B200中的FP4性能使其相比FP8传输量增加了一倍，因此这是需要注意的重要事项。

接下来，英伟达在使用单个B200与四个H100 GPU对比方面似乎有些差异。因为，扩展从来都不是完美的，因此单个GPU往往是GPU性能的最佳情况。而MLPerf 4.1并没有列出单个GPU H100结果，只有一个B200结果，这使得它们之间的比较并不公平。然而，单个H200的性能达到了每秒4,488个Token，这代表着B200在该特定测试中，速度达到了H100的2.5倍，即快了150%。

再者，双方之间HBM容量和带宽差异也是影响因素，并且存在很大的跨代差异。测试的B200 GPU配备180GB HBM3E内存，而H100 SXM配备80GB HBM，H200则是配备96GB HBM3和高达144GB的HBM3E。其中，具有96GB HBM3的单个H200在脱机模式下仅达到了3,114个Token。因此，数字格式、GPU数量、内存容量和配置都存在差异，这些差异就会影响其测试出来的结果。而且，许多差异仅仅是因为Blackwell B200是一款具有更新架构的新芯片，所以进一步都影响了其最终测试性能表现。

回到配备141GB HBM3E内存的英伟达H200上，它不仅在以Llama 2 70B大型语言模型为特色的生成式AI基准测试中也表现出色，而且在数据中心类别的每一项测试中都表现出色。再来看，AMD公布同样的MLPerf Inference 4.1测试，其MI300X的成绩。使用搭配AMD Genoa CPU及8个MI300X的服务器，在测试中性能达到了每秒21,028个Token，而在脱机参考测试中，性能达到了每秒223,514个Token。至于，使用AMD Turin CPU及8个MI300X的服务器，测试中性能达到了每秒22,021个Token，在脱机参考测试中，性能达到了24,110个Token。

这样的结果，代表使用8个MI300X的系统达到了接近英伟达DGX H100系统的成绩，差异大概在2-3%以内，也代表在测试中，单个MI300X GPU的性能达到了与英伟达H100 GPU相当的水准。而综合比较单个AMD MI300X与英伟达H200和B200的MLPerf Inference 4.1测试成绩来看，英伟达B200的成绩也是遥遥领先于MI300X和H200，其性能平均达到了MI300X的4倍左右，也达到了H200的约2.5倍左右。这也进一步凸显了英伟达B200性能的领先性。

同样需要指出的是，AMD MI300X配备了更大的192GB HBM，而B200则是180GB HBM。不过，MI300X的TDP功耗为750W，但英伟达H200和B200的TDP功耗则高达1,000W。

(首图来源：科技新报摄)

世良情感网

MLPerf测试结果公布，英伟达B200推理性能达AMDMI300X的4倍

逢纪说科技