黄仁勋甩出三代核弹AI芯片!个人超算每秒运算1000万亿次,DeepSeek成最大赢家

周子涵说科技 2025-03-19 15:36:11

在科技界的浩瀚星空中,英伟达GTC大会犹如一颗璀璨的超新星爆发,每年都吸引着全球科技爱好者和行业从业者的目光。这个大会就像是AI界的超级碗,充满了无限的可能性和惊喜,而且它没有那些提前彩排或录播的套路,充满了真实和即兴的元素,就像这次黄仁勋被线缆卡住的有趣小插曲,在这个高浓度的AI发布会上显得格外有人情味。

一、推理成本效率:AI行业的新航向

近年来,随着智能体AI(Agentic AI)和推理能力的提升,整个AI行业面临着新的挑战和变革。据数据显示,现在所需的计算量至少是去年此时预估的100倍。在这样的背景下,推理成本效率成为了贯穿英伟达GTC大会的主线。

英伟达的目标很明确,那就是要变成AI工厂,让AI以超越人类的速度学习和推理。毕竟,推理本质上就像是一座工厂在生产token,而这座工厂的价值取决于能否创造收入和利润。所以,这座工厂必须以极致的效率打造。这一理念也体现在了英伟达新发布的一系列产品和规划之中。

二、全新一代核弹级AI芯片Blackwell Ultra

(一)性能突破

在本次大会上,英伟达发布了全新一代的核弹级AI芯片——Blackwell Ultra,代号为「Ultra」,也就是GB300 AI芯片,它接棒去年的「全球最强AI芯片」B200,再次实现了性能上的巨大突破。

(二)详细参数

1. Blackwell Ultra GB300 NVL72

- 推理与训练性能:在进行FP4精度的推理任务时,能够达到1.1 ExaFLOPS(每秒百亿亿次浮点运算);在进行FP8精度的训练任务时,性能为1.2 ExaFLOPS。

- 与前代对比:与GB200 NVL72相比,性能为1.5倍。

- 内存与带宽:配备了20TB HBM3,是前代的1.5倍;拥有40TB的快速内存,也是前代的1.5倍;支持CX8,带宽为14.4 TB/s,是前代的2倍。单个Blackwell Ultra芯片将和前代一样提供相同的20 petaflops(每秒千万亿次浮点运算)AI性能,但配备更多的288GB的HBM3e内存。

2. 适用场景与集成优势

- Blackwell Ultra不仅适用于传统的AI计算场景,还特别适用于AI智能体,以及用于训练机器人和汽车自动驾驶的「物理AI」。为了进一步增强系统性能,它还将与英伟达的Spectrum - X以太网和英伟达Quantum - X800 InfiniBand平台集成,为系统中的每个GPU提供800Gb/s的数量吞吐量,这有助于AI工厂和云数据中心能够更快处理AI推理模型。

3. 相关主机配套

- 除了NVL72机架,英伟达还推出了包含单个GB300 Blackwell Ultra芯片的台式电脑DGX Station。这个主机将配备784GB的同一系统内存,内置800Gbps英伟达ConnectX - 8 SuperNIC网络,能够支持20 petaflops的AI性能。而之前在CES 2025展示的「迷你主机」Project DIGITS也正式被命名为DGX Spark,搭载专为桌面优化的GB10 Grace Blackwell超级芯片,每秒可提供高达1000万亿次AI计算操作,用于最新AI推理模型的微调和推理,包括NVIDIA Cosmos Reason世界基础模型和NVIDIA GR00T N1机器人基础模型。

(三)发布与推广计划

黄仁勋表示,借助DGX Station和DGX Spark,用户可以在本地运行大模型,或者将其部署在NVIDIA DGX Cloud等其他加速云或者数据中心基础设施上。DGX Spark系统现已开放预订,而DGX Station预计将由华硕、戴尔、惠普等合作伙伴于今年晚些时候推出。

三、下一代AI芯片Rubin的展望

(一)命名与性能提升

英伟达一直以科学家的名字为其架构命名,这一次将下一代AI芯片平台命名为「Vera Rubin」,以纪念美国著名天文学家薇拉·鲁宾(Vera Rubin)。Rubin的性能将达到Hopper的900倍,而Blackwell相较Hopper已实现了68倍的提升。

(二)Vera Rubin NVL144参数

1. 推理与训练性能:在进行FP4精度的推理任务时,能够达到3.6 ExaFLOPS;在进行FP8精度的训练任务时,性能为1.2 ExaFLOPS。

2. 与前代对比:与GB300 NVL72相比,性能提升了3.3倍。

3. 内存与带宽:配备了HBM4,带宽为13TB/s;拥有75 TB的快速内存,是前代的1.6倍;支持NVLink 6,带宽为260 TB/s,是前代的2倍;支持CX9,带宽为28.8 TB/s,是前代的2倍。

(三)芯片架构与设计改进

标准版Rubin将配备HBM4,性能比当前的Hopper H100芯片大幅提升。Rubin引入名为Grace CPU的继任者——Veru,包含88个定制的Arm核心,每个核心支持176个线程,并通过NVLink - C2C实现1.8 TB/s的高带宽连接。英伟达表示,定制的Vera设计将比去年Grace Blackwell芯片片中使用的CPU速度提升一倍。与Vera CPU搭配时,Rubin在推理任务中的算力可达50 petaflops,是Blackwell 20 petaflops的两倍以上。此外,Rubin还支持高达288GB的HBM4内存。实际上,Rubin由两个GPU组成,从Rubin开始,英伟达将不再像对待Blackwell那样把多GPU组件称为单一GPU,而是更准确地按照实际的GPU芯片裸片数量来计数。互联技术也升级了,Rubin配备第六代NVLink,以及支持1600 Gb/s的CX9网卡,能够加速数据传输并提升连接性。

(四)Rubin Ultra版本规划

Rubin Ultra NVL576则将于2027年下半年推出。其参数细节如下:

1. 推理与训练性能:在FP4精度下进行推理任务时,性能达到15 ExaFLOPS;在FP8精度下进行训练任务时,性能为5 ExaFLOPS。

2. 与前代对比:相比GB300 NVL72,性能提升14倍。

3. 内存与带宽:配备HBM4e内存,带宽为4.6 PB/s;系统拥有365 TB的快速内存,是前代的8倍;支持NVLink 7,带宽为1.5 PB/s,是前代的12倍;支持CX9,带宽为115.2 TB/s,是前代的8倍。

4.硬件配置:在硬件配置上,Rubin Ultra的Veras系统延续了88个定制Arm核心的设计,每个核心支持176个线程,并通过NVLink - C2C提供1.8 TB/s的带宽。而GPU方面,Rubin Ultra集成了4个Reticle - Sized GPU,每颗GPU提供100 petaflops的FP4计算能力,并配备1TB的HBM4e内存,在性能和内存容量上都达到了新的高度。

四、网络基础设施的升级:Spectrum - X和Quantum - X

随着AI工厂的规模不断扩大,网络基础设施的重要性愈发凸显。为此,英伟达推出了Spectrum - X和Quantum - X硅光网络交换机。

(一)Spectrum - X Photonics交换机

1. 配置与带宽:具有多种配置,包括128端口800Gb/s或512端口200Gb/s配置,总带宽达100Tb/s;512端口800Gb/s或2048端口200Gb/s配置,总吞吐量达400Tb/s。

2. 技术优势:采用了一种名为CPO的光电子集成技术,其核心是将光引擎和普通的电子芯片放在同一个封装里。这种技术的好处很多,传输效率更高,因为距离缩短,信号传输更快;功耗更低,距离短了,传输信号需要的能量也少了;体积更小,把光和电的部件集成在一起,整体体积也变小了,空间利用率更高。

(二)Quantum - X Photonics交换机

1. 性能与设计:基于200Gb/s SerDes技术,提供144端口800Gb/s的InfiniBand连接,并采用液冷设计高效冷却板载硅光子组件。与上一代产品相比,Quantum - X Photonics交换机为AI计算架构提供2倍速度和5倍可扩展性。

2. 上市计划:Quantum - X Photonics InfiniBand交换机预计于今年晚些时候上市,而Spectrum - X Photonics以太网交换机预计将于2026年推出。

五、AI工厂的“操作系统”Dynamo

英伟达表示,未来将没有数据中心,只有AI工厂。而Dynamo则是专门为「AI工厂」打造的操作系统。

(一)Dynamo的功能优势

1. GPU规划引擎:动态调度GPU资源以适应用户需求。

2. 智能路由器:减少GPU对重复和重叠请求的重新计算,释放更多算力应对新的传入请求。

3. 低延迟通信库:加速数据传输。

4. 内存管理器:智能在低成本内存和存储设备中的推理数据。

六、人形机器人Isaac GR00T N1与开源物理引擎Newton

(一)Isaac GR00T N1

1. 架构与功能:人形机器人再一次成为了GTC大会的高潮部分,这次英伟达带来了Isaac GR00T N1,全球首款开源人形机器人功能模型。这个模型采用「双系统」架构,模仿人类的认知原理。系统1是快速思考的动作模型,模仿人类的反应或直觉;系统2是慢思考的模型,用于深思熟虑的决策。在视觉语言模型的支持下,系统2对环境和指令进行推理,然后规划动作,系统1将这些规划转化为机器人的动作。

2. 应用场景与预训练:GR00T N1的基础模型采用广义类人推理和技能进行了预训练,而开发人员可以通过真实或合成数据进行后训练,满足特定的需求,既可以完成工厂的特定任务,也可以在家里自主完成家务。

(二)开源物理引擎Newton

黄仁勋还宣布了与Google DeepMind和Disney Research合作开发的开源物理引擎Newton。一台搭载Newton平台的机器人也登上了舞台,黄仁勋称之为「Blue」,外观神似《星球大战》中的BDX机器人,能够用声音和动作和黄仁勋互动。

七、DeepSeek - R1推理速度创全球之最

英伟达实现了全球最快的DeepSeek - R1推理。官网显示,一台搭载8个Blackwell GPU的DGX系统,在运行6710亿参数的DeepSeek - R1模型时,可实现每用户每秒超过250个token的速度,或达到最高吞吐量每秒超过30000个token。通过硬件和软件的结合,自今年1月以来,英伟达在DeepSeek - R1 671B模型上的吞吐量提升了约36倍,每token的成本效率提高了约32倍。为了实现这一成就,英伟达完整的推理生态系统已针对Blackwell架构进行了深度优化,不仅整合TensorRT - LLM、TensorRT Model Optimizer等先进工具,还无缝支持PyTorch、JAX和TensorFlow等主流框架。

八、英伟达的布局与应对策略

(一)行业竞争压力

一方面,Meta、Google等巨头自研AI芯片,可能分流GPU市场需求。另一方面,英伟达最新AI芯片的适时亮相,回应如DeepSeek的开源模型对GPU需求的冲击,并展示推理领域技术优势,也是为了对冲市场对训练需求见顶的担忧。

(二)英伟达的应对

最近估值跌至10年低位的英伟达,比以往任何时候都需要一场酣畅淋漓的胜利。在这场发布会上,英伟达通过展示其在AI芯片、网络基础设施、AI工厂操作系统、人形机器人等多方面的创新成果,试图在AI领域全方位布局,巩固自己的地位。

九、总结

英伟达GTC大会就像是一场科技的狂欢派对,在这个派对上,我们看到了英伟达在AI芯片领域的持续创新,从Blackwell Ultra到Rubin的逐步进化,每一款芯片都像是一颗璀璨的明珠,散发着耀眼的光芒。同时,网络基础设施的升级、AI工厂操作系统的推出、人形机器人的亮相以及DeepSeek - R1推理速度的突破等,都展示了英伟达在AI领域全方位的布局。它不仅仅是在展示技术,更是在构建一个完整的AI生态系统,从硬件到软件,从数据中心到机器人,英伟达正在努力成为AI时代的主导者。尽管面临着诸多竞争压力,但英伟达通过这次大会向世界传达了其在AI领域不可忽视的实力和无限的潜力。

0 阅读:0