北京时间3月19日凌晨,2024年度NVIDIA GTC大会于美国圣何塞正式举行。会上,英伟达发布最强的AI加速卡——Blackwell GB200。
Blackwell架构的GPU,其AI性能可达20 petaflops,而两年前发布的,到现在依然一卡难求的“H100”,它的算力仅为4 petaflops,Blackwell的算力提升堪称恐怖,同时,英伟达官方称,这些额外的处理能力将使人工智能公司能够训练更大、更复杂的模型。
作为GPGPU领域的最新重磅之作,Blackwell GPU首先在视觉上,明显要比Hopper GPU大得多。
Blackwell GPU采用了台积电定制4NP制程工艺,芯片内部整合了两个独立制造的裸晶(Die),共有2080亿个晶体管,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间NVHyperfuse接口连一个统一GPU,共有192GB HBM3e内存、8TB/s显存带宽,单卡AI训练算力可达20 petaflops。
性能方面,由于每个Blackwell GPU其内部都封装了两个Blackwell Die,而每一个Blackwell Die的浮点运算能力要比Hopper Die高出25%,所以Blackwell GPU的总性能相比Hopper GPU总性能提高了 2.5 倍,FP4精度推理性能提升至前代FP8的5倍;升级第五代NVLink,互连速度是Hopper的2倍,可扩展到576个GPU,能够解决万亿参数混合专家模型通信瓶颈。
按照英伟达2年升级一次GPU架构的提升来算,从Pascal架构到Blackwell架构,英伟达将AI计算性能提升了1000倍!
而顺势由Blackwell GPU所诞生的产品——Blackwell GB200毫无疑问将是目前最强的AI加速卡。Blackwell GB200包含了两个B200 Blackwell GPU和一个基于Arm架构打造的的Grace CPU,推理大语言模型性能比H100提升了30倍,但成本和能耗只有前者的降至25分之一。
在参数为1750亿的GPT-3 LLM基准测试中,Nvidia称GB200的性能是H100的7倍,而训练速度是H100的4倍。
同时,基于Blackwell平台的AI计算“全家桶”也同步登场。首先是面向万亿参数级GPU计算优化而推出全新网络交换机X800系列。它是专为大规模AI量身订制的全新网络交换机,以支持新型AI基础设施轻松运行万亿参数级生成式AI业务,其吞吐量高达800Gb/s。
之后是相应的带有全新冷却系统的全新计算单元——多节点、液冷、机架级系统英伟达GB200 NVL72,以及英伟达推出用于AI模型训练、微调和推理的统一AI超级计算平台DGX B200系统。
除了以上这些,发布会的结尾还送上了一些小彩蛋,例如黄仁勋还将一对来自迪士尼研究公司的小型英伟达机器人带上台互动,并且发布了人形机器人基础模型Project GR00T、新款人形机器人计算机Jetson Thor,对Isaac机器人平台进行重大升级,推动具身智能突破。
同时,英伟达之后会将Omniverse平台引入苹果Vision Pro,并宣布为工业数字孪生软件工具提供Omniverse Cloud API。