万卡GPU集群网络结构拓扑,选它就对了?

龅牙兔谈科技 2024-05-27 05:42:33

随着人工智能和HPC领域的迅猛发展,构建一个高效、低延迟、可扩展的万卡GPU集群已成为推动研究和应用的关键。那么,如何选择合适的网络结构拓扑,以确保万卡GPU集群能够实现最佳性能?

为什么需要高效的网络结构拓扑?

在一个拥有上万张GPU的集群中,网络结构拓扑的设计至关重要。它直接影响到数据的传输效率、通信延迟以及整个系统的扩展性和可靠性。一个优秀的网络结构拓扑应该具备以下特点:

低延迟:确保各节点间的通信快速,减少数据传输的等待时间。高带宽:支持大规模数据传输,满足深度学习模型训练和HPC任务的需求。可扩展性:易于扩展,能够随业务需求增加更多的GPU节点。可靠性:具备冗余和容错机制,确保系统的高可用性。主流网络结构拓扑Fat-tree特点:Fat Tree架构是一种多级分层网络结构,类似于树状结构,但在更高层次上具有更多连接,形成“胖”的效果。优点:具有良好的可扩展性和高带宽,能够均匀分配网络负载,减少拥塞。缺点:实现复杂,成本较高,尤其是当规模达到万卡级别时,硬件和管理开销显著增加。

Clos特点:Clos网络是一种多级交换网络,由Charles Clos提出,常用于电信和数据中心网络。优点:提供高带宽和低延迟,适用于大规模并行计算任务。通过多路径设计,实现高可用性和容错能力。缺点:实现复杂度高,需要大量交换设备和连接,成本较高。

Dragonfly特点:Dragonfly拓扑是一种超大规模网络设计,优化了跨组通信的效率。优点:能够在大规模集群中实现高效的全局通信,减少跳数和延迟,适合万卡级别的GPU集群。缺点:网络管理和配置复杂,对硬件要求高。

层次

描述

Router层

路由器用于连接多个节点,并通过本地连接(Local Links)连接到同一组内的其他路由器,负责组内和组间的路由选择和数据传输。

Group层

组层由多个路由器和节点组成,组内的路由器通过高带宽的本地连接互连,组内通信通常具有低延迟和高带宽。

System层

系统层表示整个Dragonfly网络,由多个组(Groups)组成,通过全局连接(Global Links)进行互连,确保跨组的高效通信。

通过一张对比表更加清晰的理解它们:

维度

Fat-tree

Clos

Dragonfly

架构特点

多级分层网络结构,根部较胖

多级交换网络,Charles Clos提出

超大规模网络设计,优化跨组通信

带宽

非常高

延迟

非常低

扩展性

良好

非常好

非常好

实现复杂度

非常高

容错能力

适用场景

数据中心,高性能计算

电信、数据中心、大规模并行计算

超大规模数据中心、超级计算机

优点

高带宽、低延迟、良好的扩展性

高带宽、低延迟、高可用性、良好的扩展性

高效的全局通信、低延迟、适合超大规模网络

缺点

实现复杂、成本高

实现复杂、成本高

管理和配置复杂、对硬件要求高

注意:也有人认为“胖树”架构是Clos网络的一种特例。

不同拓扑架构组网对比(以64口固化交换机为例,进行计算)

拓扑架构

最大节点规模

交换机数量

平均服务器接口数/交换机

Diameter(跨交换机跳数)

适用场景

2层Clos

2048

96

21.3

2跳

中小型数据中心、企业网络

3层Clos

65536

5120

12.8

POD内2跳,POD间4跳

大中型数据中心、HPC集群。

Dragonfly

279312

17424

16

组内1/2跳,组间3-5跳

超大规模数据中心、超级计算机环境。

4层Clos

2097152

229376

9.1

POD内4跳,POD间6跳

超大规模数据中心、全球范围的云计算平台。

注:

以2层Clos架构为例,Leaf交换机的32个口用于连接服务器,32个口用于连接Spine交换机,所以 32台服务器/Leaf * 64个Leaf(因为Spine是64口) = 2048台服务器,总交换机数量 96 台 = 32 + 64 ,2048/96=21.3台。如果目标节点数是1024台,对应的交换机数量分别是64台、36台、33台和38台。据2022年6月的一份统计,全球TOP10超算中,有4个采用Dragonfly架构。如何规划和部署Dragonfly路由

关键因素

描述

详细信息

1. Dragonfly拓扑结构特点

分组结构

网络被划分为多个组,每个组包含若干交换机。

组内互连

每个组内的交换机通过高带宽的直接连接互连。

组间互连

组间的互连通过一小部分高带宽链接实现,以确保跨组通信的低延迟。

2. 路由协议选择和设计

路由协议类型

2.1 路由协议类型

最短路径路由

特点:基于最短路径原则选择路由,确保数据包以最少的跳数到达目的地。优点:简单、计算开销低。缺点:容易造成某些路径上的拥塞,特别是在通信模式集中于某些路径时。

基于负载的自适应路由

特点:动态调整路由选择,根据当前网络负载情况选择最优路径。优点:可以平衡网络负载,避免拥塞,提高整体网络吞吐量。缺点:实现复杂度高,可能需要更高的计算和通信开销。

3. 路由协议的规划和部署

最短路径路由的实现

3.1 最短路径路由的实现

组内路由

使用静态路由表,所有交换机预先配置好组内的最短路径。

由于组内交换机直接互连,最短路径路由实现较为简单。

组间路由

通过最短路径算法(如Dijkstra算法)计算跨组的最短路径。

使用虚拟通道(Virtual Channels)避免死锁,通过划分优先级来处理不同的通信流。

3.2 基于负载的自适应路由的实现

组内路由

实时监控每个交换机的负载情况,动态调整数据包的路由选择。

使用智能路由算法,根据当前负载选择最优路径。

组间路由

使用全局视图管理器(Global View Manager)来监控整个网络的负载情况。

动态选择跨组的最优路径,避免热点路径,均衡网络负载。引入多路径路由机制,在高负载情况下,分散数据包到多个路径上。

4. 路由策略和机制

路由策略

4.1 路由策略

全局最短路径优先(GSPF)

结合组内和组间的最短路径信息,确保数据包在全局范围内以最短路径传输。

全局负载均衡(GLB)

在全局范围内均衡负载,动态调整路由选择,避免局部拥塞。

4.2 路由机制

虚拟通道(Virtual Channels)

通过划分多个虚拟通道,避免路由死锁,提高路由效率。

优先级队列(Priority Queues)

根据数据包的重要性和类型,分配不同的优先级,确保关键数据优先传输。

5. 实践案例

案例1:超级计算机中的Dragonfly路由

背景:某超级计算机采用Dragonfly拓扑结构,支持高性能计算和大规模并行处理。

路由选择:采用基于负载的自适应路由协议,结合全局负载均衡和虚拟通道机制。

效果:显著提高了网络吞吐量,降低了通信延迟,满足了大规模并行计算的需求。

案例2:数据中心中的Dragonfly路由

背景:某大型数据中心采用Dragonfly拓扑结构,支持海量数据处理和云计算服务。

路由选择:采用全局最短路径优先路由,结合优先级队列机制。

效果:实现了高效的数据传输和低延迟的通信,确保了云服务的高可用性和可靠性。

!!!【点赞】、【关注】不走丢^_^

!!!【点赞】、【关注】不走丢^_^



0 阅读:0

龅牙兔谈科技

简介:感谢大家的关注