回顾2024年,贯穿全年最重要的技术趋势,无疑是大模型技术引发的AI“风暴”。
在应用端,人脸识别、自然语言、智能推荐等AI应用比比皆是。应用的全面AI化,带动了AI算力的激增。IDC的数据显示:全球算力需求将以每年50%的速度增长,而AI应用驱动算力需求增长速度更快,预计到2030年,AI算力需求将比当前呈现上百倍的增长。
智能算力要“流向”千行万业的方方面面,还需要与网络的发展与之匹配,在算网一体化的发展路径下,智算广域网技术的演进尤为关键。
如中国工程院邬贺铨所说,“人工智能的爆发对互联网既是机遇也是挑战,智算广域网是人工智能时代互联网重要创新升级方向,是满足智算服务需求的基础设施。”
智算时代推动智算广域网全面发展根据2023年10月印发的《算力基础设施高质量发展行动计划》制定的主要目标:到2025年,我国算力规模将超过300EFlops,智能算力占比将达到35%。
正是大模型的驱动下,智算产业呈现出一片欣欣向荣的景象。
全国各地建设了大量的智算中心,形成了支撑人工智能训练服务的基础算力资源;与此同时,千行万业的智能化转型,对人工智能的投入持续增加,又产生了大量用于模型训练的样本数据和训练需求。
在智算的供需之间,需要一座桥梁,这座桥梁就是智算广域网。
简单地说,智算广域网就是面向智算产业高速发展,是支撑人工智能计算业务全生命周期的广域网络。中国信息通信研究院技术与标准研究所互联网中心主任高巍说,“全国各地布局多级算力资源池体系,如何充分发挥这些智算资源的作用,使其成为各个行业能够使用的智算服务,成为了当务之急,在这里网络需要发挥重要作用,‘网效’与‘算效’需要提升互促。
当然,智算广域网的诞生,也恰是为了解决传统网络无法解决的问题而存在的。
比如海量数据上传,要将大量数据样本传输到智算中心进行存储和处理,这些数据样本是人工智能模型训练和优化的基础;存算拉远则要将存储和计算资源分离,并将存储设备放置在远离计算设备的位置,通过高速网络进行样本传输和训练;协同训练,要求大模型训练可以在多地智算中心之间进行分布式训练,减轻单一地点压力,并提高训练效率。
这些伴随智算时代而来的新场景,无一不对网络的承载能力提出了高要求。也因此,推动了智算广域网,从理念到技术实践的全面发展。
运营商智算广域网实践的“关键一跃”国内的运营商已经在全国布局很多算力资源池,智算广域网支撑全社会智算资源的高效利用与服务的“关键一跃”。智算广域网的部署推进过程中,运营商依托自身的优势和需求,积极投身关键技术方案的探索和建设,积累了丰富的经验和成果。
上海电信,面对上海全市300多家企业、40多所高校和研究所,11个信息化园区的用算诉求,打造了具备智能运力的智算广域网,通过网络高吞吐使能“算得多”,RDMA广域无损保障“算得快”,任务式弹性服务做到“用得起”,全面匹配智算时代下新供需关系带来的网络诉求。
值得一提的是,上海电信的智算广域网络实践成效斐然:不仅在开启负载均衡和精准流控功能下,应用层有效传输速率提升7倍,传输时间降低了86%。同时,通过引入广域RDMA无损技术,跨百公里的存算拉远训练效率达到99%以上,从而支撑智算广域网满足海量租户进行并发训练。
重庆移动,结合当地新能源智能车企,对海量样本数据大模型训练需求,携手华为推出了智算互联网络解决方案。在方案当中,重庆移动首创提出了广域RDMA+G-SRv6的无损网络融合方案,采用RDMA、深度负载分担、智能流调度和逐流反压等关键技术,同时利用客户侧已有的标准存储,确保客户数据在智算中心不落盘,通过新一代智算设备互联实现网存协同。
通过这一系列的技术创新,重庆移动存算拉远项目在超长距离网络中,训练效率提升近1倍,月度迭代训练任务数提升近70%。极大解决了算力空闲等待时间长的问题,大幅降低企业使用大模型训练的成本,为高效算力服务的推广,加速普惠算力服务千行百业贡献了重要力量。
浙江联通,针对敏感数据本地存储异地训练的场景,提出了创新的业务模式。基于中国联通全新的算力智联网AINet,依托“网络+平台”两大基础底座和高通量、高性能、高智能的“三高”核心能力。
同时采用华为下一代路由器系列产品,浙江联通成功在杭州与金华两地间实施了业界首次30TB样本数据的跨200公里存算分离拉远训练,经过实际测算,训练效率高达97%。充分验证了针对AI训练业务存算拉远的技术可行性,未来有相关数据敏感业务需求的用户可通过运营商算力服务,完成隐私样本不出园区的拉远训练,实现成本与安全的最佳平衡。
通过广域网络联接跨几百到上千公里的异地算力中心,会面临两个关键技术点挑战: 一是跨DC大模型训练极端情况流量瞬时并发达上千Tbps,需要考虑收敛比和训练效率之间平衡最优比。二是RDMA长距传输对于丢包十分敏感,千分之一丢包会导致网络吞吐率下降,影响算卡效率并造成资源浪费。
北京电信,则针对广域网络联接跨几百到上千公里的异地算力中心,会面临的跨DC大模型训练极端情况流量瞬时并发达上千Tbps和RDMA长距传输对于丢包十分敏感两大难题。通过新一代智算路由器打造智算广域网,采用新型流级拥塞控制技术,可精准快速识别网络发生拥塞或故障,并基于流进行拥塞控制,确保拥塞不扩散到全网。同时采用路由器广域无损调度和负载均衡技术,避免数据丢包导致算卡计算效率下降,现网实际验证跨100公里长距算效仅降1%。
不难发现,运营商对智算广域网的技术探索已取得了相当多的实践成果,而在其背后,都有华为弹性无损智算IP广域网解决方案的支持。
为行业数智化转型提供网络新选择华为数据通信产品线城域路由器领域总裁左萌认为,AI的广泛应用为广域网络提出了前所未有的挑战。特别是在企业入算、协同训练和推理这三个新兴业务场景中,网络的高运力、弹性、可靠性、服务化能力、低时延和安全性等方面都面临新的要求。
首先,在企业入算场景中,企业需要将大量样本数据实时传输至智算中心,部分企业对敏感数据的安全性要求极高。为传统广域网基于流量类型的负载均衡算法较为粗放,无法有效识别和处理大数据流,且RDMA对丢包极其敏感,传统广域网的可靠性难以保证。
其次,在推理场景中,中心推理成为流量集中地,边缘推理中心也将大量出现,而传统IP网络缺乏边缘云中心及安全防护能力。
最后,在协同训练场景中,需要将DCN扩展到广域网范围,将算力卡之间的通讯距离扩展到几百甚至上千公里,这带来了丢包、大数据流承载和突发大流量收敛等挑战。
正是为了解决上述难题,华为推出的星河AI智算广域网解决方案,通过高运力、泛在灵活接入、长距无损和任务式服务的IP网络能力,为各行业提供高效、安全、无损的数据传输环境,为行业数智化转型提供网络支撑。
此前发布的《中国运力发展报告(2024年)》中指出:我国高度重视智算产业发展,坚持“网络强国”战略,推动算网协同布局,促进前沿技术应用,引导智算高质量发展。无疑,智算时代才刚刚拉开序幕,在算网一体、以网强算的背景下,智算广域网还将迎来更大的发展空间。