IT之家11月14日消息,科技媒体WccfTech昨日(11月13日)发布博文,报道称英伟达首次公布了BlackwellGPU在MLPerfv4.1AI训练工作负载中的成绩,在训练Llama270B(Fine-Tuning)模型时比Hopper快2.2倍。
测试简介
英伟达于今年8月,首次公布了BlackwellGPU在MLPerfv4.1AI推理方面的基准测试成绩,而今天首次公布了该GPU在MLPerfv4.1AI训练工作负载方面的测试成绩。
NVIDIA表示,随着新模型的推出,AI领域对计算的需求正在以指数级增长,因此需要大幅提升训练和推理AI的能力,IT之家附上本次训练工作负载主要使用的模型如下:
Llama270B(LLM微调)
StableDiffusion(文本到图像)
DLRMv2(推荐系统)
BERT(自然语言处理)
RetinaNet(目标检测)
GPT-3175B(LLM预训练)
R-GAT(图神经网络)
这些工作负载的基准测试为评估AI加速器的训练性能提供了准确的数据支持。
HopperGPU的持续优化
HopperGPU自发布以来,经过持续的软件优化,性能得到了显著提升。H100GPU在LLM预训练性能上比首次提交时快了1.3倍,并且在GPT-3(175B训练)中实现了70%的性能提升。
英伟达利用11616个H100GPU进行了MLPerf的最大规模提交,进一步证明了其在数据中心级别的强大能力。
Blackwell的技术优势
BlackwellGPU的设计旨在提高每个GPU的计算吞吐量,配备更大更快的高带宽内存,不降低性能的前提下,能够在更少的GPU上运行GPT-3175B基准测试。
根据测试结果,64张BlackwellGPU的测试性能,可以达到256张HopperGPU的水平。