打开InfiniBand交换机这个“魔盒”

龅牙兔谈科技 2024-05-11 01:28:42

如果您对本节内容感兴趣,并想做更多了解,可以移步至笔者另一篇文章 —— 《》

RDMA Over InfiniBand数据报文结构

+---------------------------------------------------+

| InfiniBand Header |

+---------------------------------------------------+

| Local Route Header (LRH) |

| Global Route Header (GRH) |

| Base Transport Header (BTH) |

+---------------------------------------------------+

| Transport Details |

| Extended Transport Header (ETH) |

| Payload (RDMA Data) |

| Immediate Data (Optional) |

+---------------------------------------------------+

| Integrity Checks |

| Invariant CRC |

| Variant CRC |

+---------------------------------------------------+

WireShark抓包

Local Route Header (LRH):包括目的地本地标识符(DLID)和源本地标识符(SLID),用于InfiniBand交换机和适配器之间的本地传输。Global Route Header (GRH):包括源和目的地的全局标识符(GID),以及跳数限制(Hop Limit)等。在需要路由到远程子网时使用。Base Transport Header (BTH):操作码、分段传输的分段号(PSN)、分区键(Partition Key, P_Key)等。定义包的传输特性,如操作码(Opcode)表明这是一个RDMA读、写还是发送操作。Extended Transport Header (ETH):依据操作类型不同,可能包括远程虚拟地址(Virtual Address)、远程密钥(R_Key)等。为特定类型的传输操作提供额外的控制,如RDMA操作和原子操作。Payload:用户数据或控制信息,即实际传输的数据内容。Immediate Data (如果有):直接嵌入数据包的短数据片段,用于在某些操作(如带Immediate数据的发送操作)中传递额外的小段数据。Invariant CRC:一个校验和,覆盖了LRH、GRH和BTH,用于检测数据在传输过程中是否出错。Variant CRC:一个校验和,覆盖Payload和Immediate Data,额外的错误检测,用于保护数据有效载荷和Immediate数据。评估和选择InfiniBand交换机时通常需要考虑的主要技术参数

1. 端口配置

端口数量:交换机提供的端口数量直接影响了网络的规模和连接能力。端口数量可以从几个到几百个不等。端口速率:每个端口的数据传输速率,常见的有SDR (2.5 Gbps), DDR (5 Gbps), QDR (10 Gbps), FDR (14 Gbps), EDR (25 Gbps), HDR (50 Gbps) 和 NDR (100 Gbps) 等。

2. 物理层特性

电缆类型:支持铜缆还是光纤,或两者的兼容性。连接器类型:常见的连接器类型包括QSFP, QSFP28, QSFP56等,这些决定了电缆的连接方式和速率。

3. 性能参数

带宽:总体带宽通常由端口速率和端口数量共同决定,例如一个具有36个EDR端口的交换机可以提供总共900 Gbps的带宽。交换容量:交换机能够处理的数据量,通常以Tbps(每秒万亿比特)计算。延迟:在数据包从输入端口到输出端口的传输过程中,交换机处理数据包的时间延迟,通常以纳秒计算。

4. 扩展性和模块化

堆叠能力:某些InfiniBand交换机支持通过堆叠多个交换机来扩展网络,这对于大规模部署非常重要。模块化设计:能否通过添加更多模块来增加端口或功能,这在需求变更时提供了灵活性。

5. 管理和配置功能

子网管理:InfiniBand网络需要一个或多个子网管理器(Subnet Manager, SM)来配置网络的拓扑和策略,有些交换机内置SM。配置接口:提供的管理接口类型,如CLI(命令行接口)、GUI(图形用户界面)或通过网络管理软件。监控和诊断工具:支持的监控功能,如SNMP支持、硬件故障检测、性能监控等。

6. 可靠性和安全性

冗余设计:例如冗余电源和风扇,确保在硬件故障时系统的连续运行。安全功能:支持的安全协议和措施,如端口隔离、访问控制列表(ACLs)等。

7. 能耗和散热

功耗:交换机的能源效率,重要的是知道全负荷时的最大功耗。散热需求:所需的冷却系统类型,如空气冷却或液体冷却,以及相应的环境要求。SM —— Subnet Manager(子网管理器)SM主要功能路径计算:SM负责计算和维护InfiniBand网络中各个设备之间的通信路径。它会为每个数据包的传输找到最优的路由,这对于保证数据传输效率和降低网络延迟至关重要。地址分配:SM为网络中的每个设备分配唯一的本地标识符(LID)。这些标识符是通信中的地址,用于识别网络上的节点和确保数据正确地发送到目的地。网络拓扑管理:SM监控整个网络的拓扑结构,包括节点和链路的状态。它负责处理设备加入或离开网络的情况,并相应地更新网络配置。错误管理:SM可以检测网络中的故障,并重新配置路由以绕过故障点,确保网络的持续可用性和鲁棒性。安全和隔离:SM实施安全策略,如确保只有授权的设备可以加入网络。它还可以配置分区,这类似于以太网中的VLAN,用于逻辑上隔离网络中的不同通信组。SM高级配置选项分区配置:在InfiniBand网络中,分区用于创建逻辑隔离的子网络,类似于VLAN。每个分区有一个唯一的键(P_Key),SM负责分配和管理这些键。QoS配置:SM可以配置质量服务(QoS)策略,以控制不同类型的流量和保证关键应用的带宽和优先级。适应性路由:SM支持适应性路由配置,这种路由策略可以根据网络状态动态调整路径,以避免拥塞和优化性能。拥塞控制:SM配置拥塞控制策略,包括设置拥塞点的阈值和响应措施,以减少拥塞对网络性能的影响。安全管理:SM负责配置网络的安全策略,包括设备认证和数据加密设置,以保护网络不被未授权访问。事件和故障响应:SM可以配置事件日志和警报通知,自动响应网络事件和故障,快速恢复网络运行。当前市面上主流的InfiniBand交换机厂商

厂商名称

描述

NVIDIA

通过收购Mellanox Technologies成为InfiniBand技术的领先提供者。提供从SDR到HDR甚至NDR的所有速率的InfiniBand产品,支持高性能计算(HPC)、AI和超大规模数据中心。

Intel

通过收购QLogic的InfiniBand业务,加强了在高性能计算和数据中心网络技术方面的布局。提供多种数据中心解决方案。

HPE

提供多种网络产品,包括支持InfiniBand的交换机。主要面向高性能计算市场,提供全方位服务和解决方案。

IBM

在高性能计算领域提供InfiniBand解决方案,包括交换机等网络设备,支持复杂的计算任务和大规模数据处理。

Cisco

虽然Cisco是网络设备的主要供应商,但在InfiniBand市场的参与较少。他们的重点更多在以太网和其他数据中心网络技术上。

Oracle

提供InfiniBand解决方案主要用于其Exadata和其他大数据和应用机器。Oracle的InfiniBand产品强调高速数据传输和低延迟。

IB交换机基础配置远程IB交换ssh admin@192.168.1.100修改管理IP地址switch (config)# interface mgmt0switch (config-if)# ip address 192.168.1.100 255.255.255.0switch (config-if)# exitswitch (config)# ip default-gateway 192.168.1.1switch (config)# write memoryswitch (config)# exit配置InfiniBand子网管理器(SM)switch (config)# ib sm startswitch (config)# write memory配置端口switch (config)# interface ib1switch (config-if)# port type serverswitch (config-if)# link speed 100gswitch (config-if)# write memoryswitch (config-if)# exit查看和监控配置switch# show configurationswitch# show interface ib1设置访问密码和远程访问控制switch (config)# username admin password mySecurePasswordswitch (config)# enable sshswitch (config)# write memory保存并退出switch# write memoryswitch# logout在一个物理InfiniBand网络中创建多个逻辑子网络ibpma -p add -P 0x8001 -n my_partition //添加分区ibpma -p assign -P 0x8001 -G GUID -p 1 //将端口指定到分区QoS配置ibqos -d mlx4_0 qos set port=1:vl_high_limit=0, vl_low_limit=0   //设置QoS策略适应性路由ibswitches -C mlx4_0 -A enable  //启用适应性路由拥塞控制ibccconfig -C mlx4_0 -c set control_map=0x1f, victim_mask=0xff  //设置拥塞控制设置安全策略ibaccess -d mlx4_0 -s enable  //设置访问控制事件和故障响应ibeventlog -d mlx4_0 -e enable   //配置事件日志附:Nvdia当前主推IB交换机的系列型号和相关技术参数

NVIDIA Quantum-2 QM9700系列交换机的关键特性和性能参数:

特性

描述

产品型号

NVIDIA Quantum-2 QM9700系列

端口速率

400 Gb/s 每个端口 NDR

总带宽

51.2 Tb/s 汇聚双向吞吐量

端口数量

64个400Gb/s InfiniBand端口

封装形式

1U 标准机箱

交换容量

超过66.5亿包每秒(BPPS)

拓扑支持

支持Fat Tree, SlimFly, DragonFly+, 多维环形等多种拓扑

连接器和电缆

32个OSFP连接器;支持被动或主动铜缆或主动光纤电缆;光模块

高级网络技术

RDMA, 自适应路由, NVIDIA® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™

网络设计优化

NVIDIA端口分裂技术,支持高达128个200Gb/s端口的密集型交换解决方案

自愈网络能力

包括自愈网络功能、服务质量、虚拟通道映射、高级拥塞控制

管理功能

内置子网管理器,支持CLI、WebUI、SNMP、JSON界面

路由器功能

可选,支持大规模InfiniBand集群的扩展

电源供应

1+1 冗余和热插拔

冷却选项

前向后或后向前冷却,6+1 热插拔风扇单元

企业支持与服务

提供NVIDIA企业级支持和服务,包括安装、配置、技术账户管理等

能源效率

采用铜线减少功耗,从30瓦降到0-3瓦每OSFP端口

安全与认证

符合RoHS, CB, cTUVus, CE和CU标准

尺寸和重量

高1.7英寸,宽17.0英寸,深26.0英寸;系统重量14.5kg

NVIDIA Quantum QM8700 系列 InfiniBand 交换机的关键技术规格:

规格类别

规格详情

产品型号

NVIDIA Quantum QM8700 系列

性能

每端口 200Gb/s HDR

交换容量

40个非阻塞端口,总计16Tb/s

连接器和电缆

QSFP56连接器;支持被动或有源铜缆,有源光缆,光学模块

电源供应

1+1 冗余和热插拔;输入范围:100-127VAC, 200-240VAC;80 Gold+ 和 ENERGY STAR 认证电源

管理端口

1个RJ45端口,1个RS232控制台端口,1个micro USB端口

CPU规格

Broadwell ComEx D-1508 2.2GHZ

系统内存

单个8GB内存模块

软件支持

MLNX-OS®

系统重量

单电源单元:11.4kg;双电源单元:12.48kg

机架规格

1U机架安装

操作环境

工作温度:0ºC-40ºC;非工作温度:-40ºC-70ºC;湿度:10%-85%(非凝结)

EMC(电磁兼容性)

符合CE, FCC, VCCI, ICES, RCM标准

安全认证

符合RoHS标准

保修期

1年

管理功能

内置子网管理器支持简单配置,支持CLI、WebUI、SNMP或JSON界面

NVIDIA Quantum CS8500 系列 InfiniBand 交换机的关键技术参数:

特性分类

技术参数

描述或值

基本信息

产品系列

NVIDIA Quantum CS8500 系列

性能指标

端口速率

HDR 200 Gb/s 每端口

总带宽

320 Tb/s 全双工带宽

端口数量

总端口数

800个端口

封装规格

机架尺寸

29U

高级技术

NVIDIA SHARP™ 技术

加速通信框架,显著提高应用性能

自适应路由、拥塞控制、服务质量

确保网络最大有效带宽,消除拥塞热点

冷却系统

冷却方式

液体闭环冷却系统

冷却设备

包括液体冷却分配单元(CDU)或空气热交换器(AHX)

电源配置

电源设计

N+1 或 N+N 冗余,热插拔电源单元

输入电压范围

200-240Vac

管理功能

管理模块

支持通过CLI、WebUI、SNMP或JSON进行全面的机箱管理

兼容性

与前代NVIDIA InfiniBand交换系统兼容

环境与安全

工作温度范围

运行温度为0ºC至40ºC

EMC 标准

符合CE, FCC, VCCI, ICES, RCM等

软件支持

系统软件

MLNX-OS®

网络管理软件

NVIDIA Unified Fabric Manager (UFM®) 平台

!!!【点赞】、【关注】不走丢^_^

!!!【点赞】、【关注】不走丢^_^



0 阅读:0

龅牙兔谈科技

简介:感谢大家的关注