万卡GPU集群网络结构拓扑，选它就对了？

随着人工智能和HPC领域的迅猛发展，构建一个高效、低延迟、可扩展的万卡GPU集群已成为推动研究和应用的关键。那么，如何选择合适的网络结构拓扑，以确保万卡GPU集群能够实现最佳性能？

为什么需要高效的网络结构拓扑？

在一个拥有上万张GPU的集群中，网络结构拓扑的设计至关重要。它直接影响到数据的传输效率、通信延迟以及整个系统的扩展性和可靠性。一个优秀的网络结构拓扑应该具备以下特点：

低延迟：确保各节点间的通信快速，减少数据传输的等待时间。高带宽：支持大规模数据传输，满足深度学习模型训练和HPC任务的需求。可扩展性：易于扩展，能够随业务需求增加更多的GPU节点。可靠性：具备冗余和容错机制，确保系统的高可用性。主流网络结构拓扑Fat-tree特点：Fat Tree架构是一种多级分层网络结构，类似于树状结构，但在更高层次上具有更多连接，形成“胖”的效果。优点：具有良好的可扩展性和高带宽，能够均匀分配网络负载，减少拥塞。缺点：实现复杂，成本较高，尤其是当规模达到万卡级别时，硬件和管理开销显著增加。

Clos特点：Clos网络是一种多级交换网络，由Charles Clos提出，常用于电信和数据中心网络。优点：提供高带宽和低延迟，适用于大规模并行计算任务。通过多路径设计，实现高可用性和容错能力。缺点：实现复杂度高，需要大量交换设备和连接，成本较高。

Dragonfly特点：Dragonfly拓扑是一种超大规模网络设计，优化了跨组通信的效率。优点：能够在大规模集群中实现高效的全局通信，减少跳数和延迟，适合万卡级别的GPU集群。缺点：网络管理和配置复杂，对硬件要求高。

层次

描述

Router层

路由器用于连接多个节点，并通过本地连接（Local Links）连接到同一组内的其他路由器，负责组内和组间的路由选择和数据传输。

Group层

组层由多个路由器和节点组成，组内的路由器通过高带宽的本地连接互连，组内通信通常具有低延迟和高带宽。

System层

系统层表示整个Dragonfly网络，由多个组（Groups）组成，通过全局连接（Global Links）进行互连，确保跨组的高效通信。

通过一张对比表更加清晰的理解它们：

维度

Fat-tree

Clos

Dragonfly

架构特点

多级分层网络结构，根部较胖

多级交换网络，Charles Clos提出

超大规模网络设计，优化跨组通信

带宽

高

非常高

延迟

低

非常低

扩展性

良好

非常好

实现复杂度

高

非常高

容错能力

高

适用场景

数据中心，高性能计算

电信、数据中心、大规模并行计算

超大规模数据中心、超级计算机

优点

高带宽、低延迟、良好的扩展性

高带宽、低延迟、高可用性、良好的扩展性

高效的全局通信、低延迟、适合超大规模网络

缺点

实现复杂、成本高

管理和配置复杂、对硬件要求高

注意：也有人认为“胖树”架构是Clos网络的一种特例。

不同拓扑架构组网对比（以64口固化交换机为例，进行计算）

拓扑架构

最大节点规模

交换机数量

平均服务器接口数/交换机

Diameter（跨交换机跳数）

适用场景

2层Clos

2048

21.3

2跳

中小型数据中心、企业网络

3层Clos

65536

5120

12.8

POD内2跳，POD间4跳

大中型数据中心、HPC集群。

Dragonfly

279312

17424

组内1/2跳，组间3-5跳

超大规模数据中心、超级计算机环境。

4层Clos

2097152

229376

9.1

POD内4跳，POD间6跳

超大规模数据中心、全球范围的云计算平台。

注：

以2层Clos架构为例，Leaf交换机的32个口用于连接服务器，32个口用于连接Spine交换机，所以 32台服务器/Leaf * 64个Leaf（因为Spine是64口） = 2048台服务器，总交换机数量 96 台 = 32 + 64 ，2048/96=21.3台。如果目标节点数是1024台，对应的交换机数量分别是64台、36台、33台和38台。据2022年6月的一份统计，全球TOP10超算中，有4个采用Dragonfly架构。如何规划和部署Dragonfly路由

关键因素

描述

详细信息

1. Dragonfly拓扑结构特点

分组结构

网络被划分为多个组，每个组包含若干交换机。

组内互连

每个组内的交换机通过高带宽的直接连接互连。

组间互连

组间的互连通过一小部分高带宽链接实现，以确保跨组通信的低延迟。

2. 路由协议选择和设计

路由协议类型

2.1 路由协议类型

最短路径路由

特点：基于最短路径原则选择路由，确保数据包以最少的跳数到达目的地。优点：简单、计算开销低。缺点：容易造成某些路径上的拥塞，特别是在通信模式集中于某些路径时。

基于负载的自适应路由

特点：动态调整路由选择，根据当前网络负载情况选择最优路径。优点：可以平衡网络负载，避免拥塞，提高整体网络吞吐量。缺点：实现复杂度高，可能需要更高的计算和通信开销。

3. 路由协议的规划和部署

最短路径路由的实现

3.1 最短路径路由的实现

组内路由

使用静态路由表，所有交换机预先配置好组内的最短路径。

由于组内交换机直接互连，最短路径路由实现较为简单。

组间路由

通过最短路径算法（如Dijkstra算法）计算跨组的最短路径。

使用虚拟通道（Virtual Channels）避免死锁，通过划分优先级来处理不同的通信流。

3.2 基于负载的自适应路由的实现

组内路由

实时监控每个交换机的负载情况，动态调整数据包的路由选择。

使用智能路由算法，根据当前负载选择最优路径。

组间路由

使用全局视图管理器（Global View Manager）来监控整个网络的负载情况。

动态选择跨组的最优路径，避免热点路径，均衡网络负载。引入多路径路由机制，在高负载情况下，分散数据包到多个路径上。

4. 路由策略和机制

路由策略

4.1 路由策略

全局最短路径优先（GSPF）

结合组内和组间的最短路径信息，确保数据包在全局范围内以最短路径传输。

全局负载均衡（GLB）

在全局范围内均衡负载，动态调整路由选择，避免局部拥塞。

4.2 路由机制

虚拟通道（Virtual Channels）

通过划分多个虚拟通道，避免路由死锁，提高路由效率。

优先级队列（Priority Queues）

根据数据包的重要性和类型，分配不同的优先级，确保关键数据优先传输。

5. 实践案例

案例1：超级计算机中的Dragonfly路由

背景：某超级计算机采用Dragonfly拓扑结构，支持高性能计算和大规模并行处理。

路由选择：采用基于负载的自适应路由协议，结合全局负载均衡和虚拟通道机制。

效果：显著提高了网络吞吐量，降低了通信延迟，满足了大规模并行计算的需求。

案例2：数据中心中的Dragonfly路由

背景：某大型数据中心采用Dragonfly拓扑结构，支持海量数据处理和云计算服务。

路由选择：采用全局最短路径优先路由，结合优先级队列机制。

效果：实现了高效的数据传输和低延迟的通信，确保了云服务的高可用性和可靠性。

！！！【点赞】、【关注】不走丢^_^

世良情感网

万卡GPU集群网络结构拓扑，选它就对了？

龅牙兔谈科技