为智算“强心”,为园区“壮体”:新质互联网驶入标准化快车道

脑极体 2024-12-06 17:56:55

“数字中国”的宏大蓝图,是靠一个个行业的数字化和智能化编织起来的。很多企业在业务场景中推进技术升级时,总会发现事情没那么简单,算力卖得贵、网络升级难、数据传不动、应用进不来……数智化之梦就此搁浅。

数智化升级,高度依赖于一张先进网络的联接力。为了满足产业需求,近年来,数据通信领域以“新质互联网(Net5.5G)”作为下一代互联网的代际和路径。但有方向还不够,为了更好地指引新质互联网的实践落地,加速产业凝心聚力,还需要一个关键环节——标准。

我们知道,标准化工作在网络建设中至关重要,可以让不同厂商以同一套指标和语言来研发产品、聚焦创新,确保了网络性能的一致性。比如无线通信4G/5G标准的冻结,就极大地加速了网络建设进程。那么数据中心、园区等场景什么时候才能建立起一套自己的标准,推动网络升级呢?

最近,我们就看到了新质互联网在智算数据中心、园区等领域的标准化曙光。

前不久,由全球固定网络创新联盟(Network Innovation and Development Alliance,以下简称NIDA)主办,中国通信学会算力网络专业委员会、全球IPv6论坛协办,共熵产业与标准创新服务中心承办的第二届网络创新发展会议上,NIDA携手多家产业伙伴共同发布了《高品质万兆园区网络技术发展研究报告》和《智算数据中心网络建设技术要求》两个关键建网标准,为建设下一代互联网提供指导,推动行业标准的出台。

今天我们就来聊聊,两个建网标准是如何让数通领域凝心聚力,为产业智能化强心壮体。

数据中心、园区的新质互联网建设,为什么重要?试想一下,大模型、云计算、AIoT、物联网、XR等新技术,从高大上的科研实验室和厂商发布会,到真正被各行各业用起来,要经过哪些网络的关隘?

首先,AI、云服务、自动驾驶等都需要庞大的算力资源,而盘踞在全国大大小小的数据中心,是算力的心脏,成千上万张算卡想要泵出更多的算力资源,集群内部的卡间互联就需要网络升级,有时一个大模型得好几个千卡集群一起并行训练,那么集群跟集群之间的网络也得重构。

接下来,泵送出来的算力经过广域网传输到业务场景,而距离企业最近的园区网络也要同步升级。而数据中心、园区的网络升级,由不同行业主体来主导,升级进度不平均、行业认识不统一,简直太正常了,这就让企业在引入数智化技术时阻碍重重。

支撑产业智能化,让企业在智能时代变得更快更强,需要更强大的算力心脏和园区网络。

但升级网络,却面临标准不统一、概念争议大、方案繁多等局面。标准缺失,给数据通信领域和产业智能化升级都带来了副作用:

1. 共识缺失。不同ICT厂商会采用各自的解决方案,分开探索,各自试错,机会成本和时间成本都很高,造成产业进展缓慢。

2. 体验不佳。不同方案中的定义不同、概念不同、架构不同,导致产品体系互不兼容,影响落地效果,甚至降低了客户对智算、AI新技术的热情。

3. 资源浪费。厂商各自为战,产业链上下游缺乏协作,会导致大量研发资源浪费,力不往一处使,不利于国内AI的长远发展。

综合这些因素,只有建网标准得以确立,才能最大程度地凝聚数据通信产业共识,为产业智能化铺设一条快车道。

NIDA组织将产学研多种力量整合起来,终于在前不久,带来了数据中心网络和园区网络的两大标准。

智算数据中心是智能世界的算力中枢,正走向超万卡集群。有报道显示,xAI已经完成了十万张GPU卡集群的搭建,未来还计划将规模翻倍,Meta也宣布计划购买35万张N卡用于集群建设。

但十万卡乃至三十万卡、五十万卡的集群,不是简单的算卡堆叠,而要让数万张卡像一台“超级计算机”一样高效运转,卡间互联、集群间互联,都需要一张高性能网络,作为基础性支撑。

这张网络应该如何组建?此次发布的《智算数据中心网络建设技术要求》建网标准中,对多种组网架构进行了阐释。

一是三层CLOS架构,也是目前主流的智算网络架构,对比两层CLOS架构由于增加了Core层交换机,需要更多的光模块,时延与建设成本并非最优,能耗也相对较高。

二是Groupwise Dragonfly+架构,报告中提到的Groupwise Dragonfly+直连架构,可支撑十万卡以上集群组网,兼顾了组网规模与功耗成本控制。

三层CLOS架构都比较熟悉了,那什么是Groupwise Dragonfly+架构呢?具体来说,就是在两层CLOS架构的基础上,将POD间的Spine层互联,实现了架构的扁平化。

一来,对比两层CLOS架构,可大幅提高组网规模,支撑未来超十万卡集群的AI智算数据中心网络建设。

二来,对比三层CLOS架构,可以在同等集群规模下,大幅减少设备数量和光模块数量,降低成本和功耗开销。以128K卡的集群为例,同样使用128个400GE端口的交换机组网,使用Groupwise Dragonfly+架构比三层CLOS架构需要的设备减少了1024台,网络整体能耗降低20%+。

第三,对比传统 Dragonfly +架构,Groupwise Dragonfly+架构可避免跨组流量在其他组内设备上下绕行,简化路由复杂度并提高了系统效率。

未来,《报告》中提到的多种组网架构都有望在智算数据中心落地。十万卡以上的数据中心网络建设不仅可以采用三层CLOS架构,Groupwise Dragonfly+也将是一种新的选择。

随着《报告》的发布,超十万卡集群的建网标准也将加速形成共识,推动行业标准的正式出台,加速国内超大规模智算数据中心的建设,真正实现以网强算。

以建网标准化加速智算产业化,让“算力心脏”泵出高算力,为产业智能化注入澎湃动力。

如果说数据中心网络连接的是“算力心脏”,那么园区网络则联接着人、终端和应用,是园区的“神经中枢”,确保园区业务的良好运转,也是我们日常接触最频繁、依赖度最高的网络层级。

《高品质万兆园区网络技术发展研究报告》中指出,“园区覆盖了绝大部分工作生产场景,80%以上的GDP和90%以上的创新在园区内产生”。所以,产业数智化必须依赖于园区数智化,而园区数智化,网络升级有着独一无二的战略地位。随着AI、云服务、远程移动办公、高清XR等新业务的兴起,园区网络要不断容纳数量更多、数据传输量更大、数据结构更复杂的数智应用,正从千兆向万兆演进。

万兆园区网络应该怎么建?此次宽带发展联盟、NIDA、WAA共同发布《高品质万兆园区网络技术发展研究报告》,带来详细的技术要求。

具体来说,高品质万兆园区建网方案应具备万兆超宽、确定可靠、体验保障、智能运维、安全防护、绿色低碳六大能力。这些指标听起来有点繁多,其实只需记住一个特点,新质互联网代际的园区网络,与传统园区网络的最大区别就是,从“以联接为中心”转变为“以体验为中心”。

下一代园区网络不仅关注建得成、连得上,还要连得好,让用户感受到切切实实的体验升级。而从用户体验的视角来看,万兆园区网络的以下特点十分关键:

一是更大的带宽。园区用户想要随时随地获取资讯,业务上云用数赋智需要大量数据的实时传输,移动办公更加流畅的高清视频会议,丝滑可靠的自动驾驶AGV小车、AIoT设备等,都需要一张性能强大的无线网络。

二是更强的体验保障。报告提到,为了提升业务和用户体验,需要支持应用可视、应用保障、应用质量检测、定位,以及VIP体验保障优先能力。此次会议中,来自北京协和医院信息中心副主任朱雯也带来了行业的声音,她说:“医疗行业提供7×24小时不间断服务,医院的各个业务基于信息系统和网络运行,特别重要的一点是保证极高的可靠性”。可以说,一张医疗园区的新质互联网,可以给患者、医护人员需要的关键网络服务提供确定性保障。

三是更强的安全防护能力。远程办公、业务云化、海量无线终端接入,这些变化都让园区网络的物理边界逐渐消失,而设备的安全防护能力参差不齐。对此,在新质互联网主导的下一代网络代际中,园区网络将采用了包括MACsec安全认证、基于零信任理念的安全防护体系、出口安全防护技术,以及网络切片在内的多种先进技术,提升整体安全防护能力。

四是绿色节能。响应全球碳中和目标,着眼于园区的可持续发展,园区网络也通过全新的设备级节能技术,如低功耗设备、智能调速风扇、自动关断激光器等,网络级节能技术,如网络架构优化、资源按需分配、负载均衡等,以及AI加持的系统级节能技术,如智能能源管理平台、AI聚类智能节能等,变得更加绿色。

这些具体可感的价值,正通过一张园区的新质互联网,被各行各业及用户真实体验到,而ICT产业界已经做好了技术与解决方案的各项落地准备。

无线方面,Wi-Fi 7是新质园区网络的显著特征。业界厂商都已经发布了Wi-Fi 7系列产品,带宽相比Wi-Fi 6提升了2-3倍,在室内、室外、IOT等各种用网场景,带来了最新一代的无线体验。在应用侧,Wi-Fi 7手机等无线终端普及速度逐渐加快。《报告》中提到的万兆园区无线Wi-Fi技术方案应具备零盲区覆盖、智能天线调优、智能漫游切换等能力,正与当下的趋势高度契合。

有线方面,《报告》中提到,万兆园区有线组网方案包含经典以太网和以太全光网,其中以太全光网适用于新建园区网络场景。在教育医疗等房间密集型场景,各厂商也在积极推出高品质的以太全光网络解决方案。

以智慧课堂为例,采用以太全光技术的产品,可以实现10GE全光进入课堂,4K/VR等多媒体教学也能流畅不卡顿。在消防安全方面,还有无源方案可以选择,让校园更加安全。结合网络管理软件,可以做到全网可视可调优,AI智能分析问题,减轻学校的网络运维压力。

从上述产业实践中不难看出,没有高品质万兆网络作为支撑,大量园区的数智化设想都将归为泡影。

《报告》的价值正在于此,通过共识的凝聚加速标准的形成,从而让高品质万兆园区网络建设驶入快车道。

抓住数字经济的增长机遇,加速建设“数字中国”,推动各行各业的数智化升级,已经成为我们这个时代的迫切需求。

但新质互联网不是一天建成的,需要层层递进,铺设一条标准化的快车道。

两份《报告》的发布,让我们看到了数据中心和园区的新质互联网建设,已经迈出了关键的三步:

第一步,凝聚共识。通过发布权威报告,明确网络演进的方向和目标,不仅提出了理论指导,还指明了切实可行的技术体系,为产业发展提供清晰的指引,为新质互联网的建设奠定了坚实的基础。

第二步,产业化落地。只有将先进的技术方案转化为实际的产业实践,才能避免其成为空中楼阁,产业落地是建设新质互联网的关键环节。科技企业在此方面做出了积极的贡献,通过自主研发和创新,为新质互联网的建设提供了有力的技术和产品支持。

第三步,标准建立。通过统一的技术标准和规范,可以确保不同厂商和设备之间的互联互通,提高网络的兼容性和可靠性,为新质互联网的长远发展保驾护航。目前来看,标准化已经驶入快车道。

为智算“强心”,为园区“壮体”,当智算数据中心、万兆园区在一张新质互联网上完成飞跃,产业数智化也将变得更高、更快、更强。

0 阅读:3

脑极体

简介:从技术协同到产业革命,从智能密钥到已知尽头