算力是韩信,运力是萧何

因为科技是阴天 2024-03-08 00:52:53

萧何是“百模大战”的幕后英雄。

如果算力是韩信,运力就是萧何。尤其在AIGC时代,算力开始崇拜“暴力美学”,就如韩信点兵,多多益善。此时的运力则如不绝粮道的萧何,他将粮草和士卒满员足额、按时按点地送至AI前线。

萧何月下追韩信

全球首发800G CPO硅光数据中心交换机,并推出一系列解决方案后,新华三的智算网络正是以萧何为模板,在市场中抢得先机。确切地说,这家公司不仅将出蜀的陈仓道、子午道,扩建为双向8车道的高速公路,而且还给智算网络加装了“智能导航”、“交通调度”等一系列功能。

改变就出现在2020年。

2020年之前的大模型还不够大。例如,GPT-1的参数量只有1.17亿,GPT-2的参数量也只有15.8亿。但2020年成为人工智能产业的分水岭,此后的科技企业越发以大为美,GPT-3参数量暴增至1750亿,算力消耗达3640PFlops/s-Days;Google PaLm的参数量更是超过5400亿,算力消耗为惊人的29600PFlops/s-Days。

对此产业变化,以及现在还难分胜负的“百模大战”,英伟达当然表示很高兴,高兴地笑纳了万亿美元市值,英特尔和AMD两兄弟应该也不反对,毕竟这两家公司也在全力投入。但庞大的算力消耗毕竟是压力,而且压力首先就甩给了智算网络,因为网络数据传输可能成为算力的瓶颈,因为萧何要月下追韩信。

运力的三道试题

其实,算力与运力本是一对好兄弟,说好了要不离不弃的共同奔赴“算网一体”,但现有算力已在抢跑。相关统计表明:AI训练任务中的算力增长(所需算力每3.5个月翻一倍)已经超越摩尔定律(晶体管数量每18月翻一倍)。未来10年,人工智能算力需求或还将增长500倍以上。

不仅如此。

智算中心中的算力流转,也变得更为复杂。如果是小模式,或参数量较小的大模型,GPU可以各自为战,只输出计算结果,这种南北向的流量,对网络传输的压力并不是很大。但如果是大模型,单颗GPU就不能独立完成任务,GPU之间将增强协同运算。

这就如每个生产车间(GPU),都能制造出简单的产品,物流部门就只需将成品送往仓库,送向用户。但如果是制造几百个部件的复杂产品,每个车间就只能生产半成品,物流部门还要装上半成品,按时按点地往来于不同的车间,工作量徒增数倍。

而且数据流向的变化,又将引出下一道试题。原有的网络拓扑结构也要改一改,传统数据中心采用有收敛的树型拓扑结构,例如下行带宽为480G,上行带宽可能只是160G,至多达到240G。

原因很简单:不可能每台服务器,都满流量地向上发送数据,设计一定收敛比,既经济也实用。智算中心则不然,其至少要采用1:1无收敛的胖树架构设计。因为每颗GPU几乎都在满负荷工作,而且在短时间内,他们真的会发送巨大的数据流量,占满整个上行带宽。

还有就是传输效率问题。以太网是允许丢包的技术,但在大模型训练中,每次丢包都意味着这一波的数据推理结果不可信。更要命的是,丢包就需要重传,但丢包已经意味着网络拥塞,丢包重传又会进一步加剧网络拥塞。

对此相关统计已证明:0.1%的丢包率将造成网络吞吐能力下降50%,造成GPU资源的严重浪费。此时网络丢包已经成为了制约算力提升的瓶颈,实现0丢包的高品质数据中心网络正在成为业界亟待解决的关键课题之一。

超宽网络不只是“宽”

既然试题就摆在那里,新华三的研发方向也就已经确定。既然算力在爆发式增长,“超宽网络”也就被提升研发日程。事实上,新华三一直在持续引领高速网络技术产品化进程。2017年,新华三完成业界首个单框768×100G性能测试;2020年,新华三完成业内首个大规模400G交换机性能测试。

2023年,新华三又在业界首发800G CPO硅光数据中心交换机。其中,H3C S9827-64EO交换机单芯片带宽达51.2T,可支撑单个AIGC集群规模突破3.2万台节点,单集群吞吐量提升8倍。

这是什么概念?

H3C S9827-64EO交换机支持64个800G端口(或128个400G端口),就意味着其能支持的GPU数量是1282/4,即4096颗GPU。这已是全球最高水平,足以应对市场中绝大部分需求,足以帮助新华三抢占其他科技企业够不到的智算商机。

当然,“超宽网络”不仅是“宽”,更要想办法“不堵车”。“为保障带宽收益最大化,新华三在产品中集成智能无损网络特性,解决以太网丢包导致的集群性能损失问题。其中,全局负载均衡技术,就可根据整网交换机节点流拥塞状态和全网拓扑识别出最优路径。”新华三集团交换机产品线产品管理部部长陈伯超说。

在此之前,传统路由技术只看转发跳数和网络带宽,例如北京到上海之间,肯定是京沪高速路况最好、距离最近,但账面上的一路畅通,并不等于实际路况。京沪高速是否拥堵,并不在传统路由技术的考虑范围之内。

新华三基于自适应路由的全局负载均衡技术,则在应用层中已经规划好数据流的传输路径。这相当于在网络层中加装了“智能导航”,在数据出发前,即可识别最优路线,提升整网吞吐至90%,大大缩短了AI训练周期。

除此之外。新华三基于SprayLink和AgileBuffer两项技术的解决方案,也为AIGC场景中的大象流、老鼠流提供了优质的通行体验。其中,SprayLink可将每个数据包分配到当时资源最优的链路,可提高95%链路带宽利用率;AgileBuffer则可对大小流量进行灵活调度,例如协议通知或报文等流量小,但级别高的业务,可零丢包的优先通行。

极低时延:从产品到方案

大规模算力环境下,时延抖动也会影响AI训练效率。刘邦在芒砀山起义,就是因为被安排押送戍卒去服役,但行至骊山路遇大雨,道路阻断耽误了工期。AIGC时代的“萧何”,可不会因为同样的接口,耽误将粮草和士卒送至AI前线

在此方面,新华三通过产品和解决方案,最大限度地降低了网络时延。新华三集团推出H3C S9827-64EO CPO硅光交换机,时延较传统设计最高可减少25%,H3C S9827-64E LPO交换机,时延较传统设计最高可减少10%以上。

更具创新的是,新华三还提供了化整为零的解决方案。例如,新一代智算AI核心交换机H3C S12500G-EF是个大块头,但大块头的机箱也有限制,最多只支撑9块交换网板(NCF),但新华三将S12500-CR交换机的主控模块(NCC)、交换网板(NCF)、业务线卡(NCP)化整为零,推出基于DDC架构的200G NCP、200G NCF交换机(H3C S12500AI系列)等一系列单独的盒式设备。

如此一来,物理空间的局限被打破,交换机的端口数量因此增加了3倍,横向扩展能力大大增强了。用户既可基于此方案完成超大规模组网,也可基于信源转发,进一步降低时延。

除此之外,新华三还想到了另一种模式降低时延。在传统胖树架构下,大规模算力传输需采用三层网络架构。此架构转发时延大,易造成无谓的多跳转发,也缺少针对多路径的负载均衡优化技术。新华三则基于二层多轨聚合架构形成解决方案,即每台服务器中的“1号GPU”,向上连接到同一台交换机,“2号GPU”则统一连接到另一台交换机。

好处在于,通过应用编程,不同服务器上的“1号GPU”可以同时跑同一应用,而且他们之间只需一跳就可相互协同,降低了不必要的通信时延,整网带宽利用率因此提升20%,端到端时延减少15%。

端网存一体化:提供算力建设全栈产品

与此同时,随着AI集群规模的增长,计算、存储、网络等基础设施的部署难度也随之提升。新华三集团整合“云-网-算-存-端”全产业链优势,建立起围绕AI大模型的“端网存一体化”能力。

在此方面,新华三已经推出全系列产品,例如R5500 G6高性能智算服务器、CX8028G全闪存设备、S9827高速交换机、CR16000-M算力调度路由器等。其中意义,就如陈伯超所说:“如果没有产品,解决方案的落地性也将存疑。”

在此一系列产品的基础上,新华三还推出了SeerFabric智算解决方案。此无损以太网方案与传统网络相比,I/O性能提升121%,I/O时延降低55%,在拥塞场景下,时延降低98%。

低碳节能:多维度突破功耗困局

最后就是低碳节能问题。

高算力往往伴随着高能耗,如何构建高效、节能的绿色数据中心,是关乎AIGC可持续发展的重要命题。这也就是硅光交换机的由来。

在数据带宽需求的推动下,光模块正在从400G向800G,乃至1.6T演进。速率越来越高,传统可插拔光模块的集成度、功耗等问题将变得非常难以解决。为解决此问题,NPO、CPO、LPO等技术最被关注。

CPO:其中,CPO有望将现有可插拔光模块架构的功耗降低50%,将有效解决高速高密度互联传输场景。新华三全球首发的51.2T 800G CPO硅光数据中心交换机(H3C S9827系列)就采用了此技术。

NPO:NPO技术与CPO技术原理类似,只是CPO模组装配在PCB版,而不是与芯片共同封装。2022年,新华三就发布了400G NPO硅光融合交换机,AIGC大火后,这一款产品迅速占领市场,很受客户欢迎。

LPO:LPO也是光模块的封装形式,具有低功耗、低延迟、低成本、可热插拔等优势。全球首款800G LPO液冷数据中心交换机H3C S9827-64E也已经问世。该交换机整机带宽同样高达51.2T,支持64个800G端口。

正是基于上述产品,新华三将绿色低碳理念融入交换机产品研发设计当中,采取了“两条腿走路”的方法。

首先,新华三通过提高交换机芯片工艺制程,以及CPO等技术的应用,降低交换机核心组件的能耗,将数据信号从传统的PCB互联直接跨越到光IO互联,极大降低了芯片用于克服传输阻抗所付出的功耗,实现单集群内的TCO降低30%。

其次,新华三还通过在交换机内整合冷板式液冷、AI优化风扇运行策略、风道优化设计等一系列技术来提升交换机的整体散热效率,让交换机整体能效再进一步。例如,在H3C S12500G-EF交换机中,多种散热技术的综合利用则使交换机持续运行的电力成本降低了40%、碳排放降低了58%。

四大网络技术发展趋势

当然,这也只是智算网络的起点。面向未来,随着智算产业的蓬勃发展,网络技术必将迎来更多重大革新,新华三集团基于对行业需求和技术演进方向的深刻洞察提出四大网络技术发展趋势。

“新华三将加速超大带宽产品的上市、面向Al的以太新协议框架将竞相涌现、以CXL为代表的异构计算资源交换技术将持续渗透、嵌入式网络运维大模型将逐步普及,这四个方向将是新华三的重点研发投入和技术攻坚方向。”陈伯超最后说。

0 阅读:0

因为科技是阴天

简介:感谢大家的关注