采用Nvidia全套InfiniBand网络解决方案

龅牙兔谈科技 2024-05-10 19:19:41

搭建一个高效的InfiniBand (IB) 网络,满足上百台GPU服务器用于AI训练的需求网络设计网络拓扑:采用Clos拓扑结构,这种多级交换架构可以提供高带宽、低延迟的连接,并且易于扩展。Clos网络可以有效支持大规模服务器之间的高并发通信,非常适合AI训练的需求。冗余设计:设计双路由或多路径特性,以提供高可靠性和故障恢复能力。这可以确保在任何单点故障情况下网络依然可用。

硬件选择交换机选择:选择NVIDIA Quantum InfiniBand交换机,这些交换机支持高达200Gb/s或400Gb/s的端口速度,适合高性能计算和深度学习需求。例如,NVIDIA Quantum-2 QM8790 200Gb/s InfiniBand交换机提供高达40个非阻塞端口和800Gb/s聚合带宽。服务器网卡:确保每台GPU服务器都装配有兼容的InfiniBand网卡,如NVIDIA ConnectX-6,这些网卡支持高达200Gb/s的数据传输速率,可以最大限度地提升数据传输效率。

配置策略子网管理器(SM)配置:配置高性能的子网管理器以管理网络路径和策略。可以选择在多个交换机上运行冗余的子网管理器,以提高网络的可靠性。虚拟通道和分区:配置虚拟通道和网络分区,以隔离不同流量类型,优化AI训练数据传输和管理流量。适应性路由:启用适应性路由技术,这可以根据网络状态动态调整路由,优化拥塞管理和提高数据传输效率。

性能优化RDMA配置:使用远程直接内存访问(RDMA)技术,减少服务器CPU的负载,加速数据传输。QoS策略:实施质量服务策略,确保关键AI训练任务能够获得必要的网络资源。

网络管理与监控使用UFM:部署NVIDIA Unified Fabric Management (UFM)平台来集中管理和监控整个InfiniBand网络。UFM可以提供先进的网络分析、故障检测和预防性维护功能。性能监控:实施实时网络性能监控系统,如使用Prometheus和Grafana进行数据可视化,确保及时发现并解决任何网络问题。

安全策略网络安全配置:实施网络安全策略,包括端口安全、设备认证和加密通信,以保护敏感的AI数据不被未授权访问。Spine/Leaf层交换选型

相关文章链接《》

Spine层交换机需要更高的端口密度和更大的带宽,用于处理来自多个Leaf交换机的流量。

推荐型号:NVIDIA Quantum QM8790端口速度:支持每端口200Gb/s端口数量:提供80个非阻塞端口,可以提供总共16Tb/s的聚合带宽特点:这款交换机为数据中心提供超高密度和性能,适合作为Spine层使用,确保可以处理大量来自Leaf层的并行数据流。支持NVIDIA In-Network Computing技术,帮助实现计算过程中的数据聚合和减少。

Leaf层交换机主要负责直接与服务器或存储设备连接。这些交换机的端口数相对较少,但需要支持高带宽以满足GPU服务器的高速访问需求。

推荐型号:NVIDIA Quantum QM8700端口速度:支持每端口200Gb/s端口数量:提供36个非阻塞端口,可以提供总共7.2Tb/s的聚合带宽特点:具备较高端口密度和速度,适合作为Leaf层交换机,直接连接到服务器。支持RDMA和NVIDIA SHARP™技术,可以加速消息传递接口(MPI)操作,非常适合深度学习和AI应用。将由以太网交换机组成的Clos网络与InfiniBand交换机融合时,该如何考虑

相关文章链接《》

网络架构设计定义网络边界:首先确定InfiniBand和以太网网络之间的接口点。这些点将作为两个网络互联的桥梁。使用网关设备:部署支持多种网络协议的网关设备,如支持InfiniBand和以太网的网关,或者是能够同时处理这两种类型连接的多协议路由器。这些设备可以在物理层或链路层提供转换功能,从而实现两种不同网络技术的数据交换。硬件和技术选择选择合适的网关设备:例如,NVIDIA提供的网关设备可以将InfiniBand网络与以太网或其他类型的网络连接起来。确保选用的设备支持您需求的最高数据速率和连接数量。保持网络性能:选择能够满足最高性能需求的网关设备,以避免在数据转换过程中造成瓶颈。配置策略配置网络协议转换:在网关设备上配置必要的网络协议转换设置,如将InfiniBand的IPoIB(IP over InfiniBand)配置成能与以太网IP通信。确保网络安全:配置适当的安全策略,包括防火墙和访问控制列表(ACLs),以保护数据在不同网络之间传输时的安全性。网络监控与管理:确保对跨网络的流量和性能进行监控,使用如NVIDIA UFM(Unified Fabric Management)等工具来集中管理InfiniBand部分,以及使用常规网络管理工具来管理以太网部分。性能优化流量工程:设计适当的流量工程策略,优化跨网络的数据流。这可能包括配置QoS(服务质量),以确保关键应用有足够的带宽和优先级。负载均衡:在网关设备上实施负载均衡策略,以优化跨网络连接的资源使用。测试与验证进行综合测试:在实际投入生产之前,对整个网络进行综合测试,验证不同网络技术间的互操作性、性能和稳定性。逐步部署:如果可能,逐步推进部署,先在小范围内测试网络融合的效果,然后再逐步扩展到整个网络。InfiniBand速率等级参考表

速率等级

每通道速率 (Gbps)

理论支持通道(Lane)数量

常见通道(Lane)数量

总端口速率 (理论最大)

SDR

2.5

1, 4, 8, 12

4

2.5, 10, 20, 30

DDR

5

1, 4, 8, 12

4

5, 20, 40, 60

QDR

10

1, 4, 8, 12

4

10, 40, 80, 120

FDR

14

1, 4, 8, 12

4

14, 56, 112, 168

EDR

25

1, 4, 8, 12

4

25, 100, 200, 300

HDR

50

1, 4, 8, 12

4

50, 200, 400, 600

NDR

100

1, 4, 8, 12

4

100, 400, 800, 1200

说明:

每通道速率:表示单个通道在理想条件下的最大数据传输速率。理论支持通道数量:列出了交换机或适配器在技术规格中可能支持的通道数量的完整范围。常见通道数量:展示了实际部署中最常见的通道配置数量,为了简化,这里假设四通道是最常见的配置。总端口速率 (理论最大):根据理论支持的通道数量计算的各种可能的总端口速率。查看 InfiniBand 端口支持通道数查看硬件规格表:生产商的硬件数据表或产品规格书通常会详细说明接口的 lane 数量。例如,NVIDIA 的 InfiniBand 适配器规格表通常会列出支持的 lane 数量。硬件管理软件:使用 InfiniBand 硬件管理软件,如 NVIDIA 的 Unified Fabric Manager (UFM) 或其他硬件管理工具,可以查看连接的详细物理属性,包括 lane 数量。查阅相关技术文档:技术白皮书、技术指南或在线资源也可能提供关于特定型号和技术规格的详细信息。命令行工具:在运行 Linux 的系统上,可以使用如 ibv_devinfo 这样的命令行工具来查看连接的详细信息,包括 lane 数量。这个命令提供了关于 InfiniBand 设备的详尽信息。ibv_devinfo //利用InfiniBand工具包提供的命令参数查看端口通道数hca_id: mlx5_0 transport: InfiniBand (0) fw_ver: 12.28.2006 node_guid: 248a:0703:009d2b8 sys_image_guid: 248a:0703:009d2b8 vendor_id: 0x02c9 vendor_part_id: 4119 hw_ver: 0x0 board_id: MT_0000000008 phys_port_cnt: 2 Device ports: port: 1 state: PORT_ACTIVE (4) max_mtu: 4096 (5) active_mtu: 4096 (5) sm_lid: 2 port_lid: 27 port_lmc: 0x00 link_layer: InfiniBand max_msg_sz: 0x40000000 port_cap_flags: 0x2659e848 max_vl_num: 4 (3) bad_pkey_cntr: 0x0 qkey_viol_cntr: 0x0 sm_sl: 0 pkey_tbl_len: 128 gid_tbl_len: 16 subnet_timeout: 18 init_type_reply: 0active_width: 4X (2) //通道数("4X"意味着4个lanes,"(2)"表示在InfiniBand规范中,1X、4X、8X、12X 等都有对应的枚举值,4X对应的就是2。)active_speed: 25.0 Gbps (32) //每个 lane 的速率,"(32)"表示该速度的内部枚举代码,代表25.0Gbps这一速度级别在InfiniBand管理或配置标准中的代码。每个速度级别都有一个唯一的代码,便于系统内部处理和识别。phys_state: LINK_UP (5) //物理链路状态,"(5)"表示该状态的内部代码,表示链路处于活动状态。这些状态代码有助于快速诊断和管理链路状态,如 LINK_DOWN, LINK_ARMED 等也有对应的代码。 GID[ 0]: fe80:0000:0000:0000:248a:0703:009d2b8附:NVIDIA Skyway主要用途:Skyway安装在InfiniBand和以太网网络的交界处,支持标准IP路由协议,可以部署在任何InfiniBand拓扑上。技术规格

① 适配器卡:包含八张ConnectX Virtual Protocol Interconnect (VPI) 双端口适配器卡,支持硬件基础上的IP数据包在InfiniBand (IPoIB)与以太网之间的转发。

② 操作系统:包括NVIDIA Gateway操作系统 (MLNX-GW),该系统管理设备硬件以及网关设备和端口之间的高可用性和负载均衡。

③ 可扩展性和效率:Skyway的可扩展架构允许IT管理员通过并行连接多个Skyway设备来适应增长的用户需求,每个网关支持1.6 terabits per second (Tb/s)的总吞吐量,利用16个端口,每个端口带宽为100Gb/s。

InfiniBand管理

① 子网管理器 (SM):InfiniBand子网托管一个集中的子网管理器,该管理器充当InfiniBand网络的软件定义网络(SDN)控制器。还提供在UFM (Unified Fabric Manager)中运行SM的选项。

订购信息

① 型号:MGA100-HS2NVIDIA Skyway InfiniBand到以太网网关设备,8个InfiniBand端口和8个以太网端口,2U服务器,8张ConnectX-6 VPI双端口HDR/200GbE适配器,2个电源供应器 (AC)

产品规格

规格项

规格描述

尺寸

标准 2U 设备

连接性

8x HDR/HDR100/EDR 端口<br>8x 200/100Gb/s 以太网端口

总吞吐量

1.6 Tb/s

电源供应

80 Plus platinum 1+1 冗余电源供应器

CPU

双 Intel Xeon 可扩展处理器

软件

MLNX-GW 网关操作系统

系统重量

21 kg

系统尺寸

高度: 87.9 mm (3.4 in)<br>宽度: 437.9 mm (17.2 in)<br>深度: 759.9 mm (29.9 in)

机架安装

2U 机架安装

操作条件

温度:0ºC-35ºC(操作), -20ºC–60ºC(非操作)<br>湿度:10%-85% @ 40ºC(操作, 非冷凝)<br>10%-95% @ 40ºC(非操作, 非冷凝)

NVIDIA ConnectX-6 InfiniBand 适配器卡性能特点:每端口最高200Gb/s的连通性。消息速率高达215百万消息/秒。极低的延迟。支持硬件级XTS-AES模式加密。符合联邦信息处理标准(FIPS)。主要技术特点高性能计算环境:

① 利用NVIDIA网络内计算和网络内内存能力,ConnectX-6可以进一步卸载计算到网络,节省CPU周期并提高网络效率。

② 使用远程直接内存访问(RDMA)技术,提供低延迟和高性能的传输。

③ 通过端到端的包级流量控制,增强了RDMA网络的能力。

机器学习和大数据环境:对于需要高吞吐量和低延迟的机器学习(ML)应用,ConnectX-6提供了优异的解决方案,可训练深度神经网络并提高识别和分类的准确性。安全性能:

① ConnectX-6的块级加密提供了关键的网络安全创新。数据在传输、存储或检索时进行加解密。

② 硬件卸载IEEE AES-XTS加解密操作,节省延迟和CPU利用率,并通过专用加密密钥保护共享资源的用户。

主要应用场景行业领先的吞吐量、低CPU利用率和高消息速率。为计算和存储基础设施提供高性能和智能Fabric。在虚拟化网络中,包括网络功能虚拟化(NFV),提供尖端性能。为x86、Power、Arm、GPU和FPGA基础的计算和存储平台提供智能互联。灵活的可编程流水线,适应新的网络流量。高效的服务链功能启用。提高I/O整合,减少数据中心成本和复杂性。NVIDIA统一Fabric管理(UFM)平台概述

NVIDIA UFM平台通过结合增强的实时网络遥测信息、AI驱动的网络智能和分析功能,革命性地改变了InfiniBand网络管理方式。该平台使用户能够发现运行异常,预测网络故障,进行预防性维护,有效保护数据中心的运营健康和安全,避免因数据中心故障而导致的巨大经济损失。

相关文章链接:《》

!!!【点赞】、【关注】不走丢^_^

!!!【点赞】、【关注】不走丢^_^



0 阅读:0

龅牙兔谈科技

简介:感谢大家的关注