智算广域网,在智算供需之间架起一座“桥”

科技正能量 2025-01-14 15:41:45

回顾2024年,贯穿全年最重要的技术趋势,无疑是大模型技术引发的AI“风暴”。

在应用端,人脸识别、自然语言、智能推荐等AI应用比比皆是。应用的全面AI化,带动了AI算力的激增。IDC的数据显示:全球算力需求将以每年50%的速度增长,而AI应用驱动算力需求增长速度更快,预计到2030年,AI算力需求将比当前呈现上百倍的增长。

智能算力要“流向”千行万业的方方面面,还需要与网络的发展与之匹配,在算网一体化的发展路径下,智算广域网技术的演进尤为关键。

如中国工程院邬贺铨所说,“人工智能的爆发对互联网既是机遇也是挑战,智算广域网是人工智能时代互联网重要创新升级方向,是满足智算服务需求的基础设施。”

智算时代推动智算广域网全面发展

根据2023年10月印发的《算力基础设施高质量发展行动计划》制定的主要目标:到2025年,我国算力规模将超过300EFlops,智能算力占比将达到35%。

正是大模型的驱动下,智算产业呈现出一片欣欣向荣的景象。

全国各地建设了大量的智算中心,形成了支撑人工智能训练服务的基础算力资源;与此同时,千行万业的智能化转型,对人工智能的投入持续增加,又产生了大量用于模型训练的样本数据和训练需求。

在智算的供需之间,需要一座桥梁,这座桥梁就是智算广域网。

简单地说,智算广域网就是面向智算产业高速发展,是支撑人工智能计算业务全生命周期的广域网络。中国信息通信研究院技术与标准研究所互联网中心主任高巍说,“全国各地布局多级算力资源池体系,如何充分发挥这些智算资源的作用,使其成为各个行业能够使用的智算服务,成为了当务之急,在这里网络需要发挥重要作用,‘网效’与‘算效’需要提升互促。

当然,智算广域网的诞生,也恰是为了解决传统网络无法解决的问题而存在的。

比如海量数据上传,要将大量数据样本传输到智算中心进行存储和处理,这些数据样本是人工智能模型训练和优化的基础;存算拉远则要将存储和计算资源分离,并将存储设备放置在远离计算设备的位置,通过高速网络进行样本传输和训练;协同训练,要求大模型训练可以在多地智算中心之间进行分布式训练,减轻单一地点压力,并提高训练效率。

这些伴随智算时代而来的新场景,无一不对网络的承载能力提出了高要求。也因此,推动了智算广域网,从理念到技术实践的全面发展。

运营商智算广域网实践的“关键一跃”

国内的运营商已经在全国布局很多算力资源池,智算广域网支撑全社会智算资源的高效利用与服务的“关键一跃”。智算广域网的部署推进过程中,运营商依托自身的优势和需求,积极投身关键技术方案的探索和建设,积累了丰富的经验和成果。

上海电信,面对上海全市300多家企业、40多所高校和研究所,11个信息化园区的用算诉求,打造了具备智能运力的智算广域网,通过网络高吞吐使能“算得多”,RDMA广域无损保障“算得快”,任务式弹性服务做到“用得起”,全面匹配智算时代下新供需关系带来的网络诉求。

值得一提的是,上海电信的智算广域网络实践成效斐然:不仅在开启负载均衡和精准流控功能下,应用层有效传输速率提升7倍,传输时间降低了86%。同时,通过引入广域RDMA无损技术,跨百公里的存算拉远训练效率达到99%以上,从而支撑智算广域网满足海量租户进行并发训练。

重庆移动,结合当地新能源智能车企,对海量样本数据大模型训练需求,携手华为推出了智算互联网络解决方案。在方案当中,重庆移动首创提出了广域RDMA+G-SRv6的无损网络融合方案,采用RDMA、深度负载分担、智能流调度和逐流反压等关键技术,同时利用客户侧已有的标准存储,确保客户数据在智算中心不落盘,通过新一代智算设备互联实现网存协同。

通过这一系列的技术创新,重庆移动存算拉远项目在超长距离网络中,训练效率提升近1倍,月度迭代训练任务数提升近70%。极大解决了算力空闲等待时间长的问题,大幅降低企业使用大模型训练的成本,为高效算力服务的推广,加速普惠算力服务千行百业贡献了重要力量。

浙江联通,针对敏感数据本地存储异地训练的场景,提出了创新的业务模式。基于中国联通全新的算力智联网AINet,依托“网络+平台”两大基础底座和高通量、高性能、高智能的“三高”核心能力。

同时采用华为下一代路由器系列产品,浙江联通成功在杭州与金华两地间实施了业界首次30TB样本数据的跨200公里存算分离拉远训练,经过实际测算,训练效率高达97%。充分验证了针对AI训练业务存算拉远的技术可行性,未来有相关数据敏感业务需求的用户可通过运营商算力服务,完成隐私样本不出园区的拉远训练,实现成本与安全的最佳平衡。

通过广域网络联接跨几百到上千公里的异地算力中心,会面临两个关键技术点挑战: 一是跨DC大模型训练极端情况流量瞬时并发达上千Tbps,需要考虑收敛比和训练效率之间平衡最优比。二是RDMA长距传输对于丢包十分敏感,千分之一丢包会导致网络吞吐率下降,影响算卡效率并造成资源浪费。

北京电信,则针对广域网络联接跨几百到上千公里的异地算力中心,会面临的跨DC大模型训练极端情况流量瞬时并发达上千Tbps和RDMA长距传输对于丢包十分敏感两大难题。通过新一代智算路由器打造智算广域网,采用新型流级拥塞控制技术,可精准快速识别网络发生拥塞或故障,并基于流进行拥塞控制,确保拥塞不扩散到全网。同时采用路由器广域无损调度和负载均衡技术,避免数据丢包导致算卡计算效率下降,现网实际验证跨100公里长距算效仅降1%。

不难发现,运营商对智算广域网的技术探索已取得了相当多的实践成果,而在其背后,都有华为弹性无损智算IP广域网解决方案的支持。

为行业数智化转型提供网络新选择

华为数据通信产品线城域路由器领域总裁左萌认为,AI的广泛应用为广域网络提出了前所未有的挑战。特别是在企业入算、协同训练和推理这三个新兴业务场景中,网络的高运力、弹性、可靠性、服务化能力、低时延和安全性等方面都面临新的要求。

首先,在企业入算场景中,企业需要将大量样本数据实时传输至智算中心,部分企业对敏感数据的安全性要求极高。为传统广域网基于流量类型的负载均衡算法较为粗放,无法有效识别和处理大数据流,且RDMA对丢包极其敏感,传统广域网的可靠性难以保证。

其次,在推理场景中,中心推理成为流量集中地,边缘推理中心也将大量出现,而传统IP网络缺乏边缘云中心及安全防护能力。

最后,在协同训练场景中,需要将DCN扩展到广域网范围,将算力卡之间的通讯距离扩展到几百甚至上千公里,这带来了丢包、大数据流承载和突发大流量收敛等挑战。

正是为了解决上述难题,华为推出的星河AI智算广域网解决方案,通过高运力、泛在灵活接入、长距无损和任务式服务的IP网络能力,为各行业提供高效、安全、无损的数据传输环境,为行业数智化转型提供网络支撑。

此前发布的《中国运力发展报告(2024年)》中指出:我国高度重视智算产业发展,坚持“网络强国”战略,推动算网协同布局,促进前沿技术应用,引导智算高质量发展。无疑,智算时代才刚刚拉开序幕,在算网一体、以网强算的背景下,智算广域网还将迎来更大的发展空间。

0 阅读:4
科技正能量

科技正能量

相信文字有力量改变世界,坚持科技改变生活的正面角度。