受芯片禁令的影响,国内很多小伙伴对大模型训练部署的 GPU 型号感知可能还停留在 H100 甚至 A100 上面。
但其实在 H100 之后,不仅诞生了同样是 Hopper 架构的 H200 芯片(于 2023 年底发布),而且 2024 年上半年,英伟达还发布了超越 Hopper 架构的全新 Blackwell 架构。
搭载最新 Blackwell 架构的 GPU 芯片,便是 B200。由两个 Blackwell B200 GPU 和一个 Grace CPU 组成的 AI 超级芯片,便是为 GB200,如下图所示。
根据相关测试,GB200 的大模型训练性能大约是 H100 的 4 倍。
在部分多模态场景下,推理性能甚至能达到 H100 的 30 倍。
但这还不够,更恐怖的是,在能耗方面,GB200 却仅为 H100 的 1/25,仅仅为 4%。[4]
这恐怖的性能和能效提升,相比 H100 绝对是代际层面的跨越。
但据 The Information 报道[1],近期,英伟达的一些大客户在数据中心部署 GB200 服务器时,遇到了交付延迟问题,原因是:
首批配备英伟达最新 Blackwell架构的 GB200服务器机架,出现了过热以及芯片间互联故障等技术问题。
供应链内部指出,问题或出在英伟达为将 72 颗 Blackwell GPU 通过 5000 根 NVLink 铜缆进行高速互连而开发的全新 cartridge 连接器模组上。每个 cartridge 中包含数千根线,在 GH200 规格下每根线的传输速率达到 112G,而 GB200 规格预计将提升至 224G,这大大增加了技术难度。[3]
很多人不知道,让 GB200 实现巨大飞跃的一个关键是,英伟达为 GB200 配套开发了专用机架。
下面是一个机架实拍图,来自网友 Adrian[3]。
英伟达此前一直强调,这个专用机架是充分释放 Blackwell 芯片性能的最佳途径,也正因如此,微软、亚马逊、谷歌和 Meta 等巨头此前在 Blackwell 机架上的订单总额均高达百亿美元以上。
每个 Blackwell 机架的高度堪比家用冰箱,重量则接近一辆本田思域汽车。
鉴于其极高的计算密度,这些机架必须采用技术更为复杂的水冷系统进行散热,这与传统风冷散热方式截然不同,因此,对大多数 AI 开发商和数据中心运营商而言,部署此类机架是一项不小的挑战。此外,并非所有数据中心的基础设施都能满足这些机架的运行环境要求。
将众多高功耗芯片高效整合到 GB200 机架中,其难度却超出了大厂预期。
大客户纷纷退单根据多位供应商员工透露,因遭遇技术问题,微软、亚马逊云服务(AWS)、谷歌和 Meta Platforms 这四家英伟达的主要客户,近期都猛猛削减了 Blackwell GB200 机架订单。
根据参与微软和 OpenAI 数据中心建设的内部人士透露, 微软原本打算在其位于凤凰城的数据中心安装配备至少 5 万颗 Blackwell 芯片的 GB200 机架,以满足 OpenAI 的运算需求。目前 OpenAI 已经开始要求微软提前交付上一代的英伟达 H200 芯片...这就意味着,原本计划大规模部署 GB200 机架的凤凰城数据中心,目前改为部署 H200 芯片。
消息公布后,英伟达美股早盘一度跌超4.7%。
参考文献https://www.theinformation.com/articles/nvidias-top-customers-face-delays-from-glitchy-ai-chip-racks?rc=tmbvudhttps://adrianco.medium.com/deep-dive-into-nvidia-blackwell-benchmarks-where-does-the-4x-training-and-30x-inference-0209f1971e71#:~:text=For%20inference%20there%20is%20a,FP4%20for%20Blackwell%20per%20GPU)%2Chttps://finance.sina.com.cn/stock/relnews/us/2025-01-14/doc-ineexptz8790440.shtmlhttps://www.nvidia.com/zh-tw/data-center/gb200-nvl72/