重大突破!中国移动携手华为等巨头,共铸“全球首颗GSEDPU芯片”

江卿曻啊 2024-11-23 09:29:08

文|江卿曻

编辑|江卿昇

前言

2024年11月19日,在浙江乌镇举办的世界互联网大会上,一项技术发布吸引了全球的目光。

中国移动联合华为、中兴等合作伙伴正式推出了全球首颗全调度以太网(GSE)DPU芯片——“智算琢光”。

“智算琢光”的出现,不仅是中国在DPU芯片领域的一次重大技术突破,更打破了长期以来国际巨头的技术垄断。

然而这款芯片为何被誉为全球第一,它能否改变国内外芯片产业的格局?更重要的是,这一创新背后的技术力量究竟有多大潜力?

划时代突破“智算琢光”

在2024年,技术变革的速度令人目不暇接,尤其是以人工智能、大数据和高性能计算为代表的前沿科技,正不断推动算力需求的井喷式增长。

智算中心作为承载这些算力需求的核心基础设施,其网络连接效率直接影响着全球科技创新的步伐。

长期以来,支撑智算中心运行的核心技术却掌握在少数国际巨头手中,英伟达、英特尔、AMD等公司在DPU芯片领域的领先地位,让国内厂商难以在核心技术上实现突破。

面对这一技术差距,中国移动带领华为、中兴等合作伙伴开启了一场意义非凡的攻坚战,目标是研发一款具备全球竞争力的DPU芯片。

经过数年的技术积累与研发努力,2024年,中国移动成功推出了“智算琢光”——全球首颗全调度以太网DPU芯片。

“智算琢光”之所以引人注目,不仅在于其技术创新,更在于它解决了智算中心长期存在的网络性能瓶颈。

在智算中心中,GPU集群的通信效率对整体算力的发挥至关重要,传统的以太网网络结构往往因拥塞和延迟问题,无法满足大规模模型训练和高性能计算的需求。

GSE技术并不是对现有以太网的彻底颠覆,而是在保留以太网物理层生态的基础上,加入了全新的智能调度机制。

“智算琢光”芯片正是这一技术的核心体现,通过支持GSE协议特有的报文容器喷洒与基于DGSQ的拥塞控制机制,这款芯片能够有效提升GPU节点间的通信效率。

据测试数据表明,基于“智算琢光”构建的网络,其性能相比传统RoCE网络提升了30%以上,为智算中心的高效运行提供了坚实的保障。

技术上的突破离不开背后复杂的技术研发与协作,“智算琢光”在发布之前,已完成了与多家主流交换芯片的对接验证,展现了强大的兼容性。

“智算琢光”芯片直接关系到产业格局的变化,DPU芯片是智算中心“算”和“网”的连接枢纽,其重要性类似于CPU和GPU。

在过去的几年里,英伟达等国际巨头凭借BlueField系列DPU牢牢占据市场制高点,但中国在这一领域的突破让人看到新的可能。

全球竞争格局正在悄然变化,面对庞大的市场需求,DPU芯片的应用前景非常广阔。

预计到2025年,全球DPU市场规模将超过245亿美元,而“智算琢光”的问世无疑为中国企业抢占这一市场提供了技术支持和信心保障。

然而GSE技术是如何一步步走向成熟并推动智算中心的发展?

全调度以太网

要理解“智算琢光”芯片为何能实现划时代的性能提升,首先需要认识其背后的核心支撑技术——全调度以太网(GSE)。

中国移动在主导GSE技术研发过程中,不仅瞄准了智算中心的实际需求,还与国内外50余家机构展开协同合作,推动了一场产业链的深度整合。

在传统的以太网中,网络拥塞和带宽利用率低下始终是难以规避的问题。

大规模GPU集群的算力互联,需要极高的网络效率,但以太网原有的负载分担机制无法应对突发的高并发流量。

尤其在人工智能模型训练等场景中,延迟和抖动问题会显著降低算力的有效性。

GSE技术的提出正是为了破解这一瓶颈,它通过引入动态负载均衡和全调度机制,彻底改变了以往的网络资源分配方式。

与传统的基于流的转发模式不同,GSE网络采用了定长的PKTC报文转发机制,同时结合基于DGSQ的拥塞控制算法,实现了流量的智能喷洒和精准控制。

这一技术创新让网络在面对高负载时依然能够保持低延迟和高稳定性,适配无损传输和高性能场景。

“智算琢光”芯片正是对GSE技术的全面落地,其支持的200G端口速率与GSE协议的深度融合,使得这一芯片成为了全球首款全量支持GSE标准的DPU。

尤其值得一提的是,芯片所采用的精细反压机制和无感知自愈机制,可以在微突发和故障场景中实现即时响应,从而最大限度地保障网络性能。

GSE技术的研发并非中国移动一家公司能够独立完成,面对全新的技术标准,中国移动选择了以协同合作的方式推进技术创新。

2023年,中国移动牵头发布了GSE技术白皮书,并联合国内外主流的云服务商、设备商、芯片商和高校,启动了“GSE推进计划”。

这一计划不仅推动了GSE技术的标准化进程,也让更多的企业能够参与到新技术生态的建设中。

例如在GSE技术验证阶段,多家合作伙伴共同参与了测试工作,包括华为、中兴等国内领先的设备商,以及全球范围内的主流交换芯片厂商。

这种多方协作的模式,不仅确保了“智算琢光”芯片的兼容性,也极大提升了GSE技术的实用性。

在商用化方面,中国移动的哈尔滨智算中心成为了GSE技术的试验场,2024年,该智算中心已成功部署了超过万卡的GSE网络集群。

在实际应用中,这一技术将训练通信时间的占比降低了20%以上,大幅提高了集群的算力利用率。

这一成果不仅体现了GSE技术的潜力,也标志着中国在智算中心网络技术领域迈出了关键一步。

GSE技术之所以被认为是智算中心的未来,并不仅仅因为其性能提升,还在于它的广泛适应性和扩展性。

无论是人工智能、大数据分析,还是高性能计算(HPC)领域,凡是涉及到高带宽利用率和低延迟需求的场景,GSE技术都能够提供出色的解决方案。

此外GSE技术还兼容现有的以太网生态链,这意味着它可以直接复用以太网的光模块、PHY层芯片等硬件,从而大幅降低部署成本。

这种兼容性让GSE技术的推广更加顺畅,也为全球范围内的智算中心提供了更广泛的应用可能。

随着“GSE推进计划”的持续深化,越来越多的行业企业正在加入到这一技术生态中,从设备商到芯片商,再到云服务提供商,GSE技术已经成为了智算中心领域技术创新的重要平台。

通过优化网络能耗,GSE技术将为数字经济的可持续发展提供有力支持,那么如何将GSE技术的优势进一步转化为智算中心的长期竞争力?

智算中心的未来

随着“智算琢光”芯片的发布以及全调度以太网(GSE)技术的快速普及,中国在智算中心领域取得的进展不仅是技术创新的体现,更在全球市场中为中国企业争取到了更大的话语权。

当前,DPU芯片已经成为全球数据中心的“第三颗主力芯片”,在CPU、GPU之外填补了关键算力环节的空白。

无论是英伟达的BlueField系列、英特尔的IPU,还是AMD对Pensando的收购,国际巨头对DPU技术的布局表明,其在未来算力架构中的核心地位不可替代。

然而长期以来,中国在DPU领域面临技术封锁和市场垄断,“智算琢光”的出现打破了这一格局。

通过支持200G端口速率和GSE协议,“智算琢光”不仅在技术性能上媲美国际领先产品,还通过优化通信效率和降低延迟,实现了超越传统网络架构的整体性能提升。

更重要的是,这一芯片的研发和商用,填补了我国在高性能DPU芯片领域的空白,让中国企业在全球智算中心领域拥有了可与国际对手抗衡的技术实力。

GSE技术的优势不仅体现在性能提升上,还在于其在网络能耗优化方面的表现,通过引入智能调度机制,GSE技术能够更高效地利用网络资源,减少数据传输过程中的能源浪费。

此外它的动态负载均衡特性,可以避免因网络拥塞导致的额外能耗,为智算中心的绿色发展提供了切实可行的解决方案。

基于“智算琢光”芯片的GSE网络,不仅显著降低了系统时延,还减少了通信能耗,这对推动低碳数字经济的构建具有重要意义。

更为关键的是,这种绿色低碳的发展模式,与中国“双碳”战略的目标高度契合,为智算中心的可持续发展提供了全新思路。

从设备商到芯片商,再到云服务提供商,50余家机构的协同合作让GSE技术具备了快速推广的条件。

值得注意的是,GSE技术的普及不仅将推动国内智算中心的技术升级,也为国际市场提供了更多选择。

结语

“智算琢光”的发布,不仅是我国在DPU芯片领域实现了重大技术突破,也揭示了GSE技术在全球智算中心网络建设中的战略价值。

未来随着GSE网络技术的普及和产业链的协作发展,我们有理由相信,智算中心将成为驱动数字经济的核心引擎,推动科技与经济迈向新的高度。

参考文章

中国移动2024年11月19日《2024年世界互联网大会乌镇峰会拉开帷幕中国移动发布4项获奖成果》的报道

封面新闻2024年11月21日《早报|今年将发布第二批高水平5G工厂 AMOLED主导全球智能手机显示面板市场》的报道

如果你也喜欢我的文章,不妨点个“关注”吧!小生在此谢过了!

0 阅读:0

江卿曻啊

简介:感谢大家的关注