在2025年GTC大会上,英伟达以“AI超级碗”的姿态,展现了其在算力基础设施与边缘计算领域的双重突破。尽管市场对算力需求增长的争议持续,但英伟达通过发布新一代芯片架构、端侧推理设备及共封装光学(CPO)技术,再次巩固了其在AI产业中的技术主导地位。此次大会的核心逻辑清晰:从训练到推理的算力重心转移,以及数据中心网络架构的颠覆性升级,将成为驱动未来AI规模化落地的关键。
推理芯片与端侧部署:英伟达开启AI新阶段
BlackwellUltra与Rubin架构:算力迭代瞄准推理效能
英伟达正式发布BlackwellUltra(GB300)芯片,相较于前代B200,其算力提升50%,内存带宽达到8TB/s,并搭载12层HBM3e。该芯片专为大规模推理场景设计,支持72颗GPU互联的NVL72超节点架构,在复杂推理任务中较传统8卡服务器性能提升显著。黄仁勋强调,BlackwellUltra不仅适用于数据中心推理,还可通过HGXB300NVL16系统优化深度推理负载,较上一代Hopper架构实现11倍推理速度提升。此外,下一代Rubin架构(预计2026年发布)将集成HBM4内存,进一步降低算力成本。
端侧AI计算机:桌面级超算的颠覆性尝试
英伟达推出两款桌面级AI设备——DGXSpark与DGXStation,前者基于GB10GraceBlackwell芯片,提供1PetaFLOPS算力,可本地运行200B参数大模型;后者面向企业级私有推理系统,配备784GB统一内存。这些设备将原本局限于数据中心的算力延伸至边缘端,大幅降低模型部署成本。黄仁勋指出,此类产品契合DeepSeek等端侧模型优化趋势,为智能体应用提供低延迟、高能效的解决方案。
软件生态协同:Dynamo框架优化推理效率
为应对推理场景的复杂需求,英伟达推出开源推理框架Dynamo。该框架通过分离式推理架构(DisaggregatedServing),将模型输入处理与生成阶段分配到不同GPU,实现资源利用率最大化。测试显示,Dynamo可将大语言模型推理的token生成效率提升3倍,显著降低单位算力成本。这一创新表明,英伟达正从硬件到软件构建完整的推理生态闭环。
CPO技术重构数据中心网络
硅光子交换机:突破传统网络瓶颈
英伟达与台积电联合开发的CPO交换机成为本次大会另一焦点。基于COWOS封装的Spectrum-X与Quantum-X交换机,采用硅光子技术将光模块直接集成至芯片,较传统可插拔光模块降低40%功耗,带宽密度提升1.6倍。其中,Quantum-X平台支持144个800Gb/s端口,液冷设计确保高密度算力集群的稳定运行。黄仁勋表示,该技术为百万GPU级AI工厂提供了网络基础设施新范式。
Scaleout与Scaleup的双向渗透
CPO技术初期将应用于数据中心Spine层(Scaleout场景),通过减少75%激光器使用量,实现能效3.5倍提升。而在Scaleup场景中,Rubin架构的NVLINK带宽升级至1800GB/s,CPO成为综合成本最优解。英伟达预测,随着超节点规模扩展,CPO在Scaleup网络的渗透率将更具确定性,为未来EB级数据传输奠定基础。
产业链协同加速商业化落地
英伟达已构建覆盖台积电、富士康、Coherent等企业的CPO技术生态。国元证券报告指出,其CPO交换机正处于试产阶段,若进展顺利将于2025年8月量产。这一进程标志着光通信产业从分立器件向集成化方案的转型,而英伟达凭借架构定义权,正在重塑数据中心网络的价值链分工。
从芯片到网络,从云端到边缘,英伟达通过GTC2025再次证明,技术创新的核心在于解决产业规模化落地的现实痛点。推理算力的爆发与网络架构的重构,不仅是算力革命的延续,更是AI从实验室走向千行百业的必经之路。
本文源自:金融界