InfiniBand网络中的常见问题

龅牙兔谈科技 2024-05-14 00:35:14

公司需要构建一个HPC集群,以满足其数据密集型研究和大型计算项目的需求,该怎么做?网络拓扑设计:采用Clos架构,确保高可用性和性能。使用多台高性能InfiniBand交换机作为Spine层,每台交换机拥有多个端口和高带宽的连接能力。在Leaf层使用多个中低性能的InfiniBand交换机,将计算节点连接到核心Spine交换机。在拓扑结构中,确保每个Leaf交换机都连接到至少两个Spine交换机,以提供冗余和故障切换。网络配置:在交换机上配置Subnet Manager(SM),以确保自动配置网络并维护连接表。配置Partition Key(PKey)来分隔不同的工作负载,确保资源的安全和隔离。高可用性:使用双网卡设计为每个计算节点配置双路径,以提高容错能力。通过备用的SM管理器配置,确保在主SM故障时,备用SM可以接管。性能优化:在每个计算节点上启用RDMA(远程直接内存访问)技术,以减少数据传输的CPU占用,提高带宽利用率。调整交换机上的QoS设置,确保高优先级的数据传输不会受到干扰。能否再系统性的说一下SM的作用?拓扑发现与维护:网络发现:SM 定期扫描整个网络,发现新添加的设备、交换机和端口状态,构建完整的拓扑图。它可以识别不同设备的物理连接,形成网络“地图”。拓扑更新:如果某个设备或交换机的状态发生变化(如端口连接断开或设备移除),SM 会自动更新网络的拓扑结构,并重新计算路由。路径选择与分配:路径计算:SM 负责为网络中的每个设备计算合适的数据路径。它根据网络拓扑结构、带宽和网络负载等因素,选择最优的路由。多路径:SM 还可以为关键设备配置多路径冗余,确保数据流在一个路径故障时可以快速切换到另一条备用路径。分区管理:安全与隔离:SM 使用 Partition Key(PKey)将不同的网络设备和数据流隔离开来,确保特定工作负载之间的隔离性与安全性。资源分配:通过设置 PKey,SM 可以在网络中划分独立的分区,并根据工作负载类型和应用需求为分区分配资源。服务质量(QoS)管理:优先级设置:SM 允许为不同的网络流量设置优先级,确保高优先级的流量(如实时应用或关键数据流)获得更快的传输。流量控制:SM 可以启用链路级流量控制机制,防止网络中出现拥堵或过载,确保网络资源得到合理利用。管理与监控:网络监控:SM 持续监控网络中的设备状态,并报告设备故障、端口错误和性能问题。日志与报告:SM 生成详细的操作日志和报告,供管理员分析网络问题并优化网络性能。主备切换:高可用性:InfiniBand 网络中通常配置主 SM 和备 SM,以确保在主 SM 故障时备 SM 能迅速接管网络管理,从而提高网络的可用性和可靠性。为什么要构建主备SM?

首先,Subnet Manager(SM)是InfiniBand网络中的一个关键组件,它的功能是负责管理网络中的拓扑结构和配置。类似SDN控制器的概念和作用。

其次,主SM和备SM是交换机中的一种软件配置,每个InfiniBand交换机可能都具有运行SM服务的能力,但通常只有一个交换机中的SM服务被配置为主SM,其他交换机中的SM则配置为备SM。

最后,主SM在正常情况下负责管理整个网络。如果主SM故障或不可用,备SM会接管并保持网络的正常运作。

既然SM那么重要,我该在哪些角色的交换机上定义SM?SM 部署位置:Spine 层:通常主 SM 和备 SM 都部署在 Spine 层的交换机上,因为 Spine 层是网络的中心位置,通常连接到网络中的所有 Leaf 层交换机。这可以确保网络拓扑结构的管理最优。Leaf 层:在某些小型或特殊拓扑结构的网络中,如果没有 Spine 层,SM 也可以直接部署在 Leaf 层交换机上,但这不是常规做法。选择主 SM 和备 SM 的依据:网络稳定性:选择稳定的 Spine 层交换机作为主 SM,确保其具有良好的硬件性能和稳定的电源供应。网络连接性:应确保主 SM 能够直接访问所有的 Leaf 层交换机,方便进行网络拓扑结构的管理。业务连续性:备 SM 应部署在与主 SM 不同的物理交换机上,确保在主 SM 故障时备 SM 能够迅速接管,保持网络的正常运作。物理位置:为了降低单点故障的风险,主 SM 和备 SM 应部署在不同的数据中心或不同机架的交换机上,以应对机架级别或局部区域的故障。性能需求:SM 所在的交换机应具有充足的性能和容量来满足网络的拓扑管理需求。配置建议:主 SM 优先级较低:将主 SM 配置为优先级较低的值(如10),以确保其始终优先负责网络管理。备 SM 优先级较高:备 SM 通常设置为优先级较高的值(如20),以确保主 SM 故障时备 SM 能迅速接管。配置SM的CLI参数有哪些?

(以Nvidia IB交换机为例)

配置主SM:

ib sm start  //启动 Subnet Manager 服务ib sm set --priority 10  //设置 SM 的优先级。数值越小,优先级越高。

配置备SM:

ib sm startib sm set --priority 20

验证主备SM工作状态:

ib sm status注意:优先级:主 SM 的优先级数值应该低于备 SM 的优先级数值。通常主 SM 的优先级设为10,备 SM 设为20。定期测试:建议定期测试 SM 的主备切换能力,确保备 SM 在关键时刻能够正常接管。网络监控:使用网络监控工具或软件,实时了解 SM 服务的健康状态,以便及时发现并处理任何问题。附

SM与SDN控制器的相同/不同比较:

比较维度

Subnet Manager (SM)

SDN 控制器

作用

管理 InfiniBand 网络的拓扑、路径和配置。

控制以太网或混合网络的拓扑、路由和策略。

协议与技术栈

使用 InfiniBand 协议和特定技术栈。

使用 OpenFlow、BGP-LS 或其他协议。

路径选择

计算 InfiniBand 网络中的最佳数据路径。

动态分配和计算以太网或混合网络中的数据路径。

拓扑发现

定期扫描 InfiniBand 网络的设备与连接。

扫描网络拓扑,识别和管理不同的网络设备与连接。

集中管理

中央化管理 InfiniBand 网络的设备和拓扑。

通过控制器集中管理广泛的网络资源。

分区管理

基于 Partition Key (PKey) 分区。

基于虚拟网络(VLAN)或策略的分段。

服务质量管理

配置 InfiniBand 网络中的服务质量。

管理数据流量的优先级、策略和服务质量。

扩展性

专注于 InfiniBand 网络的可扩展性。

提供横向扩展的能力,适应以太网、广域网和混合网络。

网络类型

专用于 InfiniBand 网络。

主要用于以太网,也可用于多种网络类型。

应用领域

高性能计算、AI 训练和存储网络。

数据中心、广域网、企业网络和云网络。

笔者相关文章链接:

《》

《》

《》

《》

!!!【点赞】、【关注】不走丢^_^

!!!【点赞】、【关注】不走丢^_^



0 阅读:0

龅牙兔谈科技

简介:感谢大家的关注