“没有好网络,别玩AIGC。”
如今,随着AI需求的大量涌现,越来越多用户意识到网络在AI集群中的重要性。一个超大规模、超高带宽、超强可靠的网络,可以为AI训练提供强有力支撑,从而节约训练成本、缩短训练时间,加速各类AI应用走向落地。
那么,如何构建一个面向AI集群环境的强大网络?
法国云服务提供商 Scaleway带来它的答案。Scaleway基于 NVIDIA 的 Hopper GPU 和 Spectrum-X 以太网网络平台构建区域性 GPU 集群,成功为用户提供 AI 按需服务业务。
Scaleway 是法国的一家拥有高性能基础设施的云服务提供商,创立于 1999 年,拥有 80+ 云产品及服务,为全球 25,000+ 客户提供云服务,客户包括 Mistral AI、Aternos、Hugging Face、Golem.ai 等。
Scaleway 提供一站式的云服务,以开发创新解决方案并帮助用户从零开始构建和扩展 AI 项目,目前 Scaleway 正在构建区域 AI 云,提供 GPU 基础设施,用于大规模的 AI 模型训练、推理及部署。
愈发严峻的AI网络挑战云 AI 工作负载需求正以前所未有的速度增长,同时生成式 AI 应用也在激增。为满足客户部署生成式 AI 应用程序、训练基础 AI 大模型的需求,云服务提供商面临巨大挑战,需要构建 AI 云,使用加速计算技术和高性能网络来支持 AI 业务。Scaleway 的核心需求包括:
● 对于分布式 AI 训练任务,单个任务的训练时间由最慢的计算节点的运行时间决定,这使得尾部延迟至关重要。AI 云需要一个高吞吐、低延迟、低抖动、易扩展的高性能网络,来确保 GPU 间快速、高效的通信,尤其是在大规模部署的场景下。
● 在多个 AI 任务同时运行的多租户环境中,性能隔离对于保护一个租户的 AI 任务免受其他租户业务的影响是必不可少的。由此提出了对多租户多任务场景下性能隔离的需求。
● 对于复杂的 AI 云环境,需要专门适用于 AI 网络的监控管理工具,提供细粒度的网络可视化功能、同时具备网络监控和故障定位能力。
● 为实现 AI 云数据中心的高效、快速部署,需要强大的网络仿真及自动化平台。
● 随着云上用户、数据、应用的快速增长,网络安全威胁不容忽视,需要提供私有的、安全的零信任基础设施,保障用户的业务安全。
Spectrum-X 重塑网络Scaleway 采用了 NVIDIA 的Hopper GPU 和Spectrum-X 网络平台应对以上挑战。
Scaleway 将 HGX Hopper GPU 服务器加入其 GPU 集群阵容中,以覆盖广泛的计算需求,利用 GPU 的速度和效率加速 AI 分布式工作负载。
对于 Scale-Out AI 网络,Scaleway 采用了基于 BlueField-3 SuperNIC 和 Spectrum SN5600 交换机构建的 Spectrum-X 网络平台。NVIDIA 的 Spectrum-X 网络平台是全球首个专为 AI 构建的以太网端到端解决方案,与传统以太网相比,其生成式 AI 训练的网络通信效率提高了 1.6 倍。同时 Spectrum-X 部署将利用以下网络软件堆栈:
● NVIDIA Air 用于 AI 网络仿真,NVIDIA Air 是一个云托管的数据中心网络仿真平台,其行为类似于真实世界的生产环境。使用 NVIDIA Air 创建数据中心的数字孪生,可以验证网络配置、网络功能以及自动化部署代码,提升数据中心的部署效率。
● NetQ 用于 AI 网络监控,通过高频遥测技术监控 AI 工作负载,NetQ 提供有关数据中心运行状况的数据和统计信息,关联配置和运行状态,并跟踪状态变化。基于遥测信息,NetQ 提供动态路由监控,RoCE 流量计数器,交换机队列直方图等功能,以识别和应对网络微突发、拥塞场景,方便网络故障定位。
● Cumulus Linux 用于软件驱动的数据中心网络自动化,Cumulus Linux 是创新的开放网络操作系统,支持 BGP/OSPF 路由协议,以太网虚拟专用网络 EVPN,虚拟路由和转发。
● DOCA SDK 和库用于增强 BlueField-3 SuperNIC 性能,DOCA SDK 提供行业标准的开放 API 和软件框架,包括针对 RDMA、网络、安全、存储、数据路径加速的 SDK,帮助开发者快速创建软件定义、SuperNIC 加速的服务。
使用的NVIDIA产品
● 硬件:
o NVIDIA HGX Hopper 服务器
o NVIDIA Spectrum-4 SN5600 以太网交换机
o NVIDIA BlueField-3 B3140H SuperNICs
● 软件:
o Cumulus Linux 网络操作系统
o NetQ 监控管理平台
o NVIDIA Air 仿真平台
o DOCA SDK
让AI按需服务走向现实采用 NVIDIA 的整体解决方案后,极大地提升了 AI 计算能力,缩短了 AI 训练时间,同时加速了 AI 解决方案的开发、部署和上市时间,有效提高了投资回报率。
● Scaleway 客户可以从几个 GPU 扩展到几千个 GPU,以适应任何 AI 用例。
● Spectrum-X 提供多租户、多任务的 AI 环境所需的高性能和安全性, 借助动态路由、拥塞控制、全局共享缓冲区等多种机制,实现了多任务的性能隔离。
● NetQ 提供对 AI 网络健康状况的深度可视性,具有 RoCE 流量计数器、事件和WJH(What Just Happened)警报等丰富的仪表板,实现 AI 网络可视化、故障排除和验证功能。
● NVIDIA Air 和 Cumulus Linux 支持 API 原生网络环境,该环境可集成到 DevOps 工具链中,实现了第 0 天、第 1 天 和第 2 天操作的无缝衔接。
NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成式 AI 等开创性技术的飞速发展,使每家企业都必须把网络创新放在第一位,从而获得竞争优势。NVIDIA Spectrum-X 是对以太网络的一次革命,让企业能够充分利用其 AI 基础设施的强大力量来改变其运营方式,甚至颠覆他们的行业。”
Scaleway 首席执行官 Damien Lucas 表示:“NVIDIA Spectrum-X 网络技术为我们的 ‘ GPU 集群按需服务’ 提供了更快的网络连接和更高效的 GPU 通信,使我们的客户能够加速开发和部署他们的 AI 解决方案。”
综合观察NVIDIA创始人兼首席执行官黄仁勋认为:人工智能和加速计算的交汇将重新定义未来。毫无疑问,随着生成式AI、多模态AI等AI技术浪潮的到来,数据中心走向智算中心成为大势所趋,一个面向AI集群的高性能、高效、可靠的网络将成为数据中心发展的必需。
而面向生成式AI市场的Spectrum-X 网络,拥有无损网络、动态路由、流量拥塞控制、多业务性能隔离等优秀特性,正在成为像Scaleway 等各种类型用户在数据中心部署AI或者构建AI按需服务的首选。