高性能计算场景要求超低时延和超大规模网络。传统 CLOS 架构无法满足这些需求,促使业界寻求更优的拓扑结构。
* Fat-Tree:无阻塞转发,但网络直径较长。
* Dragonfly:网络直径小,但扩展性受限。
* Torus:扩展性高,成本低,但存在绕路问题。
这些架构提供了不同均衡的时延、成本和扩展性特征,满足不同场景需求。
InfiniBand高性能网络设计概述面向E级计算的4款高性能处理器概述基于鲲鹏处理器的高性能计算实践高性能计算关键组件核心知识一文全解高性能制造仿真技术高性能计算:RoCE技术分析及应用高性能计算:谈谈被忽视的国之重器高性能计算:RoCE v2 vs. InfiniBand网络该怎么选?高性能网络全面向RDMA进军Fat-Tree胖树架构
Fat-Tree网络拓扑通过避免带宽收敛,实现了无阻塞连接。与传统树形拓扑不同,Fat-Tree中带宽从叶子到根部递增,最大化了数据吞吐量。这种拓扑适用于各种应用程序,提供低延迟和可扩展的吞吐量选项,包括非阻塞连接和超额订阅。凭借其出色的数据吞吐量和灵活性,Fat-Tree成为最受欢迎的网络拓扑之一。
Fat-Tree架构采用1:1无收敛设计,交换机上下联端口带宽数量一致,采用数据中心级无阻塞转发交换机。通过扩展网络层级,可大幅提升GPU节点接入数量。
Fat-Tree架构的核心在于消除带宽瓶颈。云数据中心采用Spine-Leaf架构,即使没有物理收敛,也能遵循Fat-Tree理念,实现无带宽收敛,从而提升网络性能。
Fat-Tree架构GPU接入能力
* 两层Fat-Tree:接入GPU数量n²/2,最高达800个(40端口交换机)
* 三层Fat-Tree:接入GPU数量n(n/2)²,最高达16000个(40端口交换机)
但是,Fat-Tree架构也存在明显的缺陷:
大型网络中的传统交换机方案成本高昂,部署复杂。Fat-Tree架构优化了交换机数量,所需交换机数量为5M/n(M为服务器数量,n为交换机端口数)。但当n较小时,交换机数量仍庞大,导致布线和配置复杂。
传统拓扑结构限制了网络对分布式应用(如 MapReduce、Dryad)的支持。由于这些应用需要 One-to-All 和 All-to-All 通信模式,而传统拓扑结构无法有效实现,导致部署困难。扩展规模在理论上受限于核心层交换机的端口数目。Fat-Tree架构提供卓越的通用性和无收敛,适用于大规模集群网络。然而,随着网络规模的扩大,层级数量增加,所需的互联光纤和交换机数量将大幅增加,导致成本攀升。此外,网络跳数的增加会导致通信延迟延长,可能无法满足对低延迟要求严格的业务需求。
Dragonfly架构
Dragonfly网络架构:
Dragonfly是备受推崇的直连拓扑架构,因其卓越特性而备受赞誉。由John Kim等人于2008年提出,Dragonfly以其低直径和成本效益著称。其网络直径仅为O(log n),n代表节点数。
Dragonfly在高性能计算网络领域得到了广泛应用,同时也是多元化算力数据中心网络的理想选择。其低延迟、高带宽和可扩展性使其成为满足现代数据中心严苛需求的绝佳选择。
Dragonfly网络如下图所示:
Dragonfly 架构采用三层拓扑结构:
- 交换层:连接服务器
- 组层:分组交换机
- 系统层:管理整个网络
Switch层:包括一个交换机及其相连的P个计算节点;集团层包含多个全连接交换机层,每个交换机拥有与其他所有交换机连接的链路。这提供了极高的网络互连性和冗余性,确保数据在整个集团内高效且可靠地传输。System层:包含g个Group层,这g个Group层也是全连接的。在一个连接着 p 个计算节点、a 个 Group 内交换机、h 个跨 Group 交换机的 Switch 交换机中,网络特性如下:
每个交换机的端口数为k=p+(a-1)+hGroup的数量为g=ah+1网络中一共有N=ap(ah+1) 个计算节点通过整合 Group 内交换机,可实现端口数量的倍增。合成后的虚拟交换机端口数为 k' = a(p+h),其中 k' 为合成后交换机端口数,a 为 Group 内交换机数量,p 为每个交换机物理端口数,h 为每个交换机聚合端口数。Dragonfly拓扑由dfly(p,a,h,g)表示,其中p、a、h和g为四个可调参数。
推荐的平衡配置方法为:a=2p=2h。该方法确保了Dragonfly拓扑的容量、延时和鲁棒性之间的合理平衡。
Dragonfly的路由算法主要有以下几种:
最小路由算法:在特定网络拓扑中,最大跳数仅为 3。当相邻组之间存在直接连接时,始终存在唯一的最短路径。VAL(Valiant Load-Balanced Routing)算法是一种非最短路径路由算法。该算法随机选择一个组,将数据先发送至该组,然后再转发至目的地。由于拓扑结构的特点,VAL最多经过 2 条全局链路和 3 条局部链路,可确保在最多 5 次跳跃内到达目的地。自适应路由:智能路径选择交换机动态根据网络流量选择最优路径,优先使用最短路径,当拥塞时,灵活切换至次优路径。
该技术克服了获取全局网络状态的挑战,衍生出变种算法,包括 UGAL-L 和 UGAL-G,进一步提升路由效率。
Dragonfly网络拓扑采用直连模式,显著优化网络性能。与其他拓扑相比,它:
* 缩短网络路径,减少节点数量
* 支持高达27万节点的组网规模
* 降低端到端交换机转发跳数至3跳
Dragonfly拓扑提供卓越的性能和性价比,但依赖于有效的拥塞控制和自适应路由。
然而,可扩展性是一个挑战。每次扩容都需要重新布线,提高了网络复杂性和管理负担。
Torus架构
集合通信是分布式机器学习的基础,它在受限的网络互联条件下实现了高效通信。
特点包括:
* 超大模型和数据的分布式处理
* 满足效率、成本、带宽和时延等多重需求
* 平衡客户需求、质量创新和产品化
Torus网络架构以其高效率和可扩展性而著称,适用于集合通信场景。
索尼的2D-Torus算法采用“组内散播-规约”和“组间全规约”相结合的方式,三维Torus(3D-Torus)算法则进一步扩展了这一思想,提高了传输效率和降低了通信延迟。
这些算法使Torus网络适用于大规模并行计算,在数据密集型应用中表现出色。
我们用k-ary n-cube来表示。k是排列的边的长度,n是排列的维度。
3-ary 3-cube拓扑如下:
以2D-Torus拓扑为例,可以将网络结构表达成如下的Torus结构。
横向拓展:每台服务器搭载多个 GPU 节点,通过高速私有网络(如 NVLINK)连接,实现高效数据通信。纵向:每台服务器通过至少2张RDMA网卡NIC 0 /NIC 1通过交换机互联。横向优化第一步:
将主机内8张显卡的梯度拆分并规约为同维梯度,确保每个GPU在迭代结束后包含所有梯度的总和。
步骤 2:纵向 Ring All Reduce
在纵向上,对每台服务器上的 X 个 GPU 数据执行集群内纵向全局归约,实现高效通信。
横向执行主机内 All Gather,将 GPU 0 到 X-1 上的梯度同步至服务器内的所有其他 GPU。
Torus网络架构具有如下优势:
更低的延迟:环面拓扑可以提供更低的延迟,因为它在相邻节点之间有短而直接的链接;环面网络优化数据局部性,提升通信效率。物理临近节点间的逻辑邻近关系有效减少时延和功耗,避免不必要的通信开销。环形拓扑结构比 CLOS 网络具有更低的网络直径,可显着降低成本,因为它在相同节点数量下需要更少的交换机。Torus网络架构也存在一些不足:
可预测方面,环面网络中是无法保证的;易扩展方面:缩放环面网络可能涉及重新配置整个拓扑,可能更加复杂和耗时;负载平衡方面:环面网络提供多条路径,但相对Fat-tree备选路径数量要少;Torus网络拓扑突破维度限制,探索高维网络领域。其基本单元“硅元”采用3D-Torus结构,多个硅元可构建4D、5D、6D及更高维度Torus直接网络,为数据传输开辟广阔新空间。
发现客户痛点,精准定位潜在群体,根据用户画像匹配方案,通过微信平台精细化运营,助力企业获得精准客户线索。已有企业案例,转化率高达30%,深度挖掘客户价值,提升企业收益。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-