高性能GPU服务器硬件拓扑与组网全攻略

薪科技快评 2024-05-19 18:04:31

高性能GPU服务器硬件拓扑与集群组网

01、术语与基础

大模型训练常采用8卡GPU集群,涵盖A100、A800、H100、H800机型。以8*A100 GPU主机为例,其内部硬件拓扑高效且强大,为训练提供强大算力支撑。

| 典型 8 卡 A100 主机硬件拓扑

本节将基于这张图来介绍一些概念和术语,有基础的可直接跳过。

PCIe 交换芯片

支持PCIe的设备如CPU、内存、NVME存储、GPU、网卡等,均可接入PCIe总线或专用交换芯片,实现高效互联。目前PCIe已更新至第5代,即Gen5,展现了其技术的卓越发展。

NVLink定义

Wikipedia 上 NVLink 上的定义:

NVLink is a wire-based serial multi-lane near-range communications link developed by Nvidia. Unlike PCI Express, a device can consist of multiple NVLinks, and devices use mesh networking to communicate instead of a central hub. The protocol was first announced in March 2014 and uses a proprietary high-speed signaling interconnect (NVHS).

简单总结:同主机内不同 GPU 之间的一种高速互联方式:

是一种短距离通信链路,保证包的成功传输,更高性能,替代 PCIe,支持多 lane,link 带宽随 lane 数量线性增长,NVLink实现同一node内GPU的full-mesh互联,类似spine-leaf架构,确保高效数据传输与协同工作。NVIDIA 专利技术。

演进历程涵盖1至4代,核心差异在于单条NVLink链路的lane数量及每lane的双向带宽。图表直观展示NVLink的进化,详见HotChips 2022 [1]的研究成果。

A100拥有卓越性能,通过2条通道/NVSwitch乘以6个NVSwitch,每条通道高达50GB/s,实现惊人的600GB/s双向带宽(单向300GB/s),确保GPU与NVSwitch间的数据传输畅通无阻。A800精简至8条lane,实现400GB/s双向带宽(单向高达200GB/s),每条lane传输速度达50GB/s,高效能传输,满足您的数据需求。

高效监控来袭!DCGM精准捕捉实时NVLink带宽数据,确保性能无懈可击。精准数据源自dcgm-exporter[5],为您的监控策略提供有力支撑。

NVSwitch

还是参考下图:| 典型 8 卡 A100 主机硬件拓扑

NVSwitch 是 NVIDIA 的一款交换芯片,封装在 GPU module 上,并不是主机外的独立交换机。

下面是真机图,浪潮的机器,图中 8 个盒子就是 8 片 A100,右边的 6 块超厚散热片下面就是 NVSwitch 芯片:

Inspur NF5488A5 NVIDIA HGX A100 8 GPU Assembly Side View. Image source: [2]

NVLink Switch

NVSwitch,并非普通交换机,而是GPU模块上的交换芯片,专为连接同主机GPU而设。2022年,NVIDIA创新推出NVLink Switch,真正实现了跨主机GPU设备的互联。尽管名字相似,但功能与应用各有千秋,不容混淆。

HBM (High Bandwidth Memory)

由来

传统上,GPU 显存和普通内存(DDR)一样插在主板上,通过 PCIe 连接到处理器(CPU、GPU), 因此速度瓶颈在 PCIe,Gen4 是 64GB/s,Gen5 是 128GB/s。

因此,一些 GPU 厂商(不是只有 NVIDIA 一家这么做)将将多个 DDR 芯片堆叠之后与 GPU 封装到一起 (后文讲到 H100 时有图),这样每片 GPU 和它自己的显存交互时,就不用再去 PCIe 交换芯片绕一圈,速度最高可以提升一个量级。这种“高带宽内存”(High Bandwidth Memory)缩写就是 HBM。

HBM 的市场目前被 SK 海力士和三星等韩国公司垄断。

演进:HBM 1/2/2e/3/3e

From wikipedia HBM,| 使用了 HBM 的近几代高端 NVIDIA GPU 显存带宽(双向),纵坐标是 TB/s。Image source: [3]

AMD MI300X 采用 192GB HBM3 方案,带宽 5.2TB/s;HBM3e 是 HBM3 的增强版,速度从 6.4GT/s 到 8GT/s。

带宽单位

大规模GPU训练性能受数据传输速度显著影响,涵盖PCIe、内存、NVLink、HBM及网络等多链路带宽,确保高效数据传输至关重要。

网络习惯以bits/second (b/s)为单位,且通常指的是单向传输(TX/RX)速度,衡量网络性能的关键指标。其他模块带宽通常以B/s(字节/秒)或T/s(事务/秒)为单位,反映双向总数据传输或处理效率,确保高效通信与处理。

比较带宽时注意区分和转换。

02、典型 8*A100/8*A800 主机

主机内拓扑:2-2-4-6-8-8

2 片 CPU(及两边的内存,NUMA)2 张存储网卡(访问分布式存储,带内管理等)4 个 PCIe Gen4 Switch 芯片6 个 NVSwitch 芯片8 个 GPU8 个 GPU 专属网卡

典型8卡A100主机硬件拓扑图 呈现NVIDIA DGX A100的专业配置,官方认证的8卡机器硬件布局。特色在于存储网卡直接通过PCIe与CPU相连,确保高效数据传输。专业之选,尽在NVIDIA DGX A100。

从分布式存储读写数据,例如读训练数据、写 checkpoint 等;正常的 node 管理,ssh,监控采集等等。

强烈推荐BF3 DPU,但带宽达标下选择多样。组网经济型推荐RoCE,极致性能则首选IB。

NVSwitch fabric实现节点内全互联,8个GPU通过6个NVSwitch芯片以full-mesh方式连接,形成强大的NVSwitch fabric。其每根线的带宽高达n * bw-per-nvlink-lane,确保数据高效传输,为您的业务提供卓越支持。

A100搭载NVLink3技术,实现高达50GB/s/lane的传输速度。在full-mesh结构中,每条线带宽高达600GB/s(双向),单向传输效率为300GB/s,满足高速数据传输需求。A800精简版,12车道缩减至8车道,每条线仍达50GB/s,总计400GB/s,单向传输高达200GB/s,性能依旧卓越。

利用`nvidia-smi topo`轻松洞察GPU拓扑。在配备8块A800显卡的服务器上,`nvidia-smi`揭示了详尽的硬件连接结构,其中NIC 0~3已实现双网卡绑定。专业数据,一屏掌握。

GPU 之间(左上角区域):都是 NV8,表示 8 条 NVLink 连接;NIC 之间:

NODE适用于同CPU内跨PCIe交换芯片,无需跨NUMA;SYS则针对跨CPU操作,需跨越NUMA节点,确保高效数据处理与通信。

GPU 和 NIC 之间:

CPU内部,若NODE位于同一PCIe Switch下,仅需跨交换芯片;若位于不同PCIe Switch但同CPU,则需跨交换芯片与Host Bridge;若跨越不同CPU,即SYS级,需跨NUMA与PCIe交换芯片,通信距离最远。高效配置,确保数据传输迅速准确。

GPU 训练集群组网:IDC GPU fabirc

GPU节点互联架构揭秘:GPU网卡与置顶交换机直连,形成高效计算网络。置顶交换机通过full-mesh技术连接至核心交换机(spine),构建跨主机GPU计算网络,实现卓越性能与高效互联。

这个网络的目的是 GPU 与其他 node 的 GPU 交换数据;GPU与网卡间的高效互联通过PCIe交换芯片实现,形成无缝桥梁:GPU直接连通PCIe Switch,再无缝对接NIC。

存储网络:直连CPU的两张网卡融入另一网络,专注于数据读写与SSH管理。RoCE与InfiniBand两大技术,皆为RDMA之关键,支撑计算与存储网络,确保AI性能之高峰。在高性能追求中,这两者皆不可或缺。

RoCEv2网络是公有云8卡GPU主机的主流选择,如CX6的8*100Gbps配置,性能卓越且价格亲民,为您带来高性价比的云计算体验。InfiniBand性能超越RoCEv2达20%以上,但价格高出一倍。追求极致性能,InfiniBand是首选。

数据链路带宽瓶颈分析

同主机GPU与网卡间,采用PICe Gen4 Switch芯片,实现高达64GB/s双向传输,单向峰值达32GB/s,速度卓越。跨主机GPU通信需依赖网卡,受限于网卡带宽。A100/A800机型标配带宽达100Gbps(12.5GB/s单向),但跨机通信性能显著低于主机内通信,需充分考虑网络带宽对性能的影响。200Gbps==25GB/s:已经接近 PCIe Gen4 的单向带宽;400Gbps==50GB/s:已经超过 PCIe Gen4 的单向带宽。

对于此机型,400Gbps网卡效能受限,需PCIe Gen5支持方能尽显其能。

典型配置为8*H100/8*H800主机,GPU板卡形态分两类,满足多样需求。

PCIe Gen5SXM5:性能更高一些

H100 芯片 layout

4nm 工艺;最底部配备18根Gen4 NVLink,实现双向总带宽高达900GB/s,即18 lanes × 25GB/s/lane的卓越性能。中间蓝色的是 L2 cache;左右两侧是 HBM 芯片,即显存。

主机内硬件拓扑

A100 8卡机结构升级,亮点凸显:NVSwitch芯片精简至4个,更高效;与CPU互联技术升级至PCIe Gen5 x16,双向带宽高达128GB/s,大幅提升数据传输效率。真机图展示,实力非凡,期待您的体验!

组 网

与 A100 也类似,只是标配改成了 400Gbps 的 CX7 网卡, 否则网络带宽与 PCIe Switch 和 NVLink/NVSwitch 之间的差距更大了。

04、典型 4*L40S/8*L40S 主机

L40S 是今年(2023)即将上市的新一代“性价比款”多功能 GPU,对标 A100。除了不适合训练基座大模型之外(后面会看到为什么),官方的宣传里它几乎什么都能干。 价格的话,目前第三方服务器厂商给到的口头报价都是 A100 的 8 折左右。

L40S vs A100 配置及特点对比

L40S独具优势,其time-to-market极短,远超A100/A800/H800,这得益于技术和非技术因素的双重优化,确保您快速获取所需产品。

比如 FP64 和 NVLink 都干掉了;使用 GDDR6 显存,不依赖 HBM 产能(及先进封装)。

价格便宜也有几方面原因,后面会详细介绍:

整机成本显著优化,如省去一层PCIe Gen4 Swtich。相较4x/8x GPU配置,其他部件成本几乎可忽略,极具性价比。

L40S 与 A100 性能对比

性能 1.2x ~ 2x(看具体场景);功耗:两台 L40S 和单台 A100 差不多。

务必注意,L40S主机官方推荐单机配置4卡而非8卡,原因后续揭晓。对比常采用两台4*L40S与单台8*A100。性能提升的前提在于200Gbps RoCE或IB网络的支持,下面将详细解释其重要性。

L40S 攒机

推荐架构优化:L40S GPU主机2-2-4架构

L40S GPU主机推荐采用精简的2-2-4架构,相较A100的复杂布局,其物理拓扑更为高效。此架构显著特点在于移除CPU与GPU间的PCIe Switch芯片,实现网卡与GPU直接连接至CPU的PCIe Gen4 x16(64GB/s),大幅提升数据传输效率,为高性能计算提供卓越支持。

2 片 CPU(NUMA)2 张双口 CX7 网卡(每张网卡 2*200Gbps)4 片 L40S GPU另外,存储网卡只配 1 张(双口),直连在任意一片 CPU 上

每片GPU享有高达200Gbps的网络带宽。然而,我们不建议采用2-2-8单机配置搭载8张L40S GPU的架构,这是基于NVIDIA L40S官方推介材料的考量。相较于单机4卡配置,8卡配置需额外引入两片PCIe Gen5 Switch芯片,增加了复杂性和潜在风险。

PCIe switch 只有一家在生产,产能受限,周期很长;平摊到每片 GPU 的网络带宽减半。

组网

官方建议 4 卡机型,搭配 200Gbps RoCE/IB 组网。

数据链路带宽瓶颈分析

单机4卡L40S GPU主机带宽瓶颈解析

在同CPU环境下,L40S提供两种链路选择:一是数据经CPU中转,即GPU0通过PCIe与CPU连接,再由CPU经PCIe传输至GPU1。

此方案适用于数据处理需求不高、延迟要求不严格的场景。选对链路,高效利用带宽,是提升GPU性能的关键。

PCIe Gen4 x16 双向 64GB/s,单向 32GB/s;CPU 处理瓶颈?TODO

GPU间通信革新:GPU0与GPU1间数据流转,无需CPU干预,直接经PCIe至网卡,再经RoCe/IB交换机返回,实现高效、低延迟的直通式数据传输。

PCIe Gen4 x16 双向 64GB/s,单向 32GB/s;平均每个 GPU 一个单向 200Gbps 网口,单向折算 25GB/s;NCCL支持不可或缺,官方透露新版NCCL正专为L40S适配,其默认行为是执行外部环绕后回归,更高效,更顺畅。

尽管第二种方式看似复杂,但官方证实其速度远超方式一(CPU处理机制尚待深究)。关键在于网卡与交换机的配置:200Gbps RoCE/IB网络,确保在带宽充足的环境下,实现极速体验。

GPU间通信的带宽与延迟恒定,不受单机或CPU架构影响。这一特性使得集群能够轻松实现横向扩展(相对于纵向扩展),灵活满足各种计算需求。GPU成本下降,但针对网络带宽需求不高的业务,NVLINK成本转移至网络。为确保L40S多卡训练性能发挥,组建200Gbps网络成为必要之选,确保最佳性能表现。L40S:200Gbps(网卡单向线速)A100:300GB/s(NVLINK3 单向) == 12x200GbpsA800:200GB/s(NVLINK3 单向) == 8x200Gbps

L40S卡间带宽相较于A100 NVLINK慢12倍,较A800 NVLink慢8倍,因此,在数据密集交互的基础大模型训练中,L40S并非理想选择。

测试注意事项

如上,即便只测试单机 4 卡 L40S 机器,也需要搭配 200Gbps 交换机,否则卡间性能发挥不出来。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:4

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!