InfiniBand网络与RoCEv2：你该选择谁？

RoCE v2和InfiniBand网络对比分析

* 高性能计算网络平台解决方案，解决物探高性能计算难题。* 突破传统 TCP/IP 堆栈应用瓶颈，支持基于 GPU 程序调用 IB 栈。* 满足高性能计算网络通信需求，助力物探高效运行。GPU的程序必须调用 IB栈，而传统TCP/IP 堆栈应用无法支撑高性能计算网络通信的问题。

ROCE v2 架构解决方案受客户青睐，生态与应用持续成熟。ROCE v2 技术提升网络传输效率和可靠性，降低主机 CPU 消耗，优化运营成本。架构解决方案逐渐被客户接受，生态和应用不断成熟，同时网络传输效率和可靠性也得到加强，通过ROCE v2 技术的运营降低了主机CPU消耗。

HPC是通过大量计算资源，处理标准工作站无法完成的数据密集型任务，特别适用于仿真、建模和渲染等计算需求复杂的任务。是指利用聚集起来的计算能力来处理标准工作站无法完成的数据密集型计算任务，例如勘探业务中所需要的仿真、建模和渲染等。

突破计算极限，赋能数据智能新时代当今世界，计算问题日益复杂，传统计算机难以满足需求。云计算的出现，以其强大的计算能力，可帮助企业轻松解决海量数据处理难题，让数据智能成为现实。

HPC 方法突破算力瓶颈HPC 方法利用专门或高端硬件，整合多个单元的计算能力，克服局限。数据和运算分布至各个单元，引入并行概念，大幅提升计算效率。方法通过使用专门或高端的硬件，或是将多个单元的计算能力进行整合，能够有效地克服这些限制。将数据和运算相应地分布到多个单元中，这就需要引入并行概念。

不同建模问题并行程度不同。参数化扫描求解多个具有独立几何、边界条件或材料属性的相似模型，可完全并行计算。该问题非常适合并行计算，通常称为“易并行问题”。此类问题对集群中的网络速度和延迟敏感，通用硬件连接可加快计算速度。“易并行问题”并行问题对集群中的网络速度和延迟非常敏感。（在其他情况下，由于网络速度不够快，无法有效处理通信，很可能导致速度减慢。）因此，可以将通用硬件连接起来，加快这类问题的计算速度。

* 传统网络中的 TCP/IP 堆栈随着网络接入带宽的增长，对 CPU 的消耗日益严重。* HPC 网络采用 RDMA 技术绕过 TCP/IP 堆栈，直接将数据从应用程序内存传输到远端节点内存，大幅降低 CPU 消耗和网络传输延时。 TCP/IP 堆栈随着网络接入带宽的增长，对 CPU 的消耗越来越高，HPC 网络通常采用 RDMA 技术对网络减少TCP/IP 堆栈对计算节点 CPU 的消耗，降低网络传输延时。

RDMA 是一种允许两台服务器直接在内存之间转移数据的高速网络技术。它无需任何一台服务器的 CPU 参与，因此可实现更高效的通信，降低服务器的CPU I/O工作负载。这种处理在支持 RDMA 的网络接口卡（NIC）上进行，并且会避开 TCP/IP 堆栈，从而加快数据转移速度。如此，就可直接将数据传送到目标服务器上的远程内存中。RDMA 具有许多优点，包括：- 提高吞吐量和性能：RDMA 可实现高达每秒数千兆比特的数据传输速度，是传统 TCP/IP 网络的数倍。- 降低延迟：RDMA 可将数据传输延迟降低到微秒级，是传统 TCP/IP 网络的数千倍。- 节省 CPU 资源：RDMA 可将数据传输任务从 CPU 转移到网络接口卡，从而释放 CPU 资源，提高服务器的整体性能。允许在两台服务器的内存之间直接转移数据，而无需任何一台服务器的 CPU 参与（也称为零拷贝网络），因此可实现更高效的通信。这种处理在支持 RDMA 的网络接口卡（NIC）上进行，并且会避开TCP/IP 堆栈，因而加快数据转移。如此，就可以直接将数据传送到目标服务器上的远程内存中，降低用于其他处理的服务器的 CPUI/O 工作负载。

Infiniband交换体系架构利用RDMA技术，为HPC提供高性能、低延时的网络平台，是业界转发延时最小的交换机。然而，Infiniband交换机有其独立架构体系和协议，与传统网络设备存在差异，需要单独学习和掌握。IB交换体系架构（参考：Infiniband架构和技术实战、InfiniBand高速互连网络设计的研究和200G HDR InfiniBand有啥不同？）利用了 RDMA 技术技术，通过业界最小的转发延时，为 HPC 提供高性能低延时的网络平台，但 Infinband交换机有自己的独立架构体系和协议（IB 协议和规范）：

1. 必须和支持 IB 协议的设备进行互联。

2.Infinband 体系相对封闭，难以替换。

3. Infinband 体系和传统网络对接需要单独的网关。

以太网助力 HPC 降本增效在 HPC 计算平台中，大量对延时不敏感的应用使用昂贵的 IB 交换端口，增加了成本和管理难度，限制了 HPC 系统的扩展。随着以太网带宽的不断增长，原有基于 IB 建立的网络需要扩容。对于非延时绝对要求的 HPC 应用接入，采用以太网替换 IB 交换机可以降低成本，提高整体系统的扩展性。 HPC 计算平台中，存在这大量对延时并非绝对敏感的应用，而以昂贵的 IB 交换端口来承载数目众多的这些应用无形中增加了企业的计算成本、维护成本、管理成本，制约了 HPC 整体系统的扩展。从业界以太网络基于10G/25G/40G/100G 带宽增长的趋势的发展趋势来看，随着计算规模的不断扩增，原有很多基于 IB 建立的网络无论从带宽介质形态，端口密度等都需要扩容，对于非延时绝对要求的 HPC 应用接入，都倾向于采用以太网替换原有 IB 交换机以降低成本。

- RoCE 规范在以太网上实现了 RDMA 功能，减少了延迟，提高了网络利用率。

- 避开TCP/IP 并采用硬件卸载，降低了CPU利用率。规范在以太网上实现了 RDMA 功能，ROCE 需要无损网络，RoCE的主要优势在于它的延迟较低，因此可提高网络利用率；同时它可避开TCP/IP 并采用硬件卸载，因此 CPU 利用率也较低。

RoCEv2：以太网网络上的 RDMA 路由- RoCEv2 标准使 RDMA 路由可以在第三层以太网网络中传输。- RoCEv2 规范将以太网链路层上的 IP 报头和 UDP 报头替代 InfiniBand 网络层，从而可以在基于 IP 的传统路由器之间路由 RoCE。- 这项技术为数据中心网络提供了更高的灵活性和可扩展性。 RoCEv2 标准可实现 RDMA 路由在第三层以太网网络中的传输。RoCEv2 规范将用以太网链路层上的 IP 报头和 UDP 报头替代 InfiniBand 网络层。这样，就可以在基于 IP 的传统路由器之间路由 RoCE。

RoCE v1协议基于以太网承载RDMA，局限于二层网络部署。其报文结构在原有IB架构的报文上增加二层以太网的报文头，通过Ethertype 0x8915标识RoCE报文。1协议：基于以太网承载 RDMA，只能部署于二层网络，它的报文结构是在原有的 IB架构的报文上增加二层以太网的报文头，通过 Ethertype 0x8915 标识 RoCE 报文。

RoCE v2协议优化要点：-基于UDP/IP协议承载RDMA，可部署于三层网络。-报文结构：原有IB架构的报文上增加UDP头、IP头和二层以太网报文头。- UDP目的端口号：4791，标识RoCE报文。-支持基于源端口号hash，采用ECMP实现负载分担，提高网络利用率。2协议：基于 UDP/IP 协议承载 RDMA，可部署于三层网络，它的报文结构是在原有的 IB 架构的报文上增加UDP头、IP 头和二层以太网报文头，通过 UDP 目的端口号 4791 标识 RoCE 报文。RoCE v2 支持基于源端口号 hash，采用 ECMP 实现负载分担，提高了网络的利用率。

RoCEv2 助力企业轻松满足数据中心高性能需求RoCEv2 是一款创新的技术，能够满足企业内日益增长的高性能和横向扩展架构需求。它帮助企业实现融合路径的持续性并提供高度密集的数据中心，减少开发工作量，提高用户部署应用和迁移应用的效率。RoCEv2 为基于 IB 的应用移植提供了快速迁移的方式，使其能够轻松迁移至企业数据中心。RoCEv2 可帮助其实现融合路径的持续性并提供高度密集的数据中心，同时为基于 IB 的应用移植，提供了快速迁移的方式，减少了开发工作量，提高了用户部署应用和迁移应用的效率。

- 国内主流网络厂商，如华为、浪潮、华三均支持 RoCE 网络方案。- 浪潮典型方案采用 CN12000 接入核心，形成计算网、管理网、存储网三张网络。- 计算网实现高密度、高转发，配合主机实现关键技术应用。- 基于 IB 协议开发的高性能应用可平滑迁移到更低成本的以太交换网络。RoCE网络方案。以浪潮为例，典型方案采用CN12000 接入核心，形成三张网：计算网、管理网、存储网，在计算网实现高密度，高转发，配合主机实现 RDMA 关键技术的运用，实现基于 IB 协议开发的高性能应用平滑迁移到更低成本的以太交换网络中来。

网络高性能产品，支持 RoCEv2 标准，消除了程序移植的复杂性和额外工作量，降低了计算节点 TCP/IP 堆栈对主机 CPU 的消耗。极大简化了高性能网络架构，降低了多级架构层次造成的延时，为关键计算节点接入带宽的平滑升级提供有力支撑。支持计算节点 RoCEv2 和 DCE/DCB，降低了计算节点 TCP/IP 堆栈对主机 CPU 的消耗，提高了网络性能。 RoCEv2 标准作为核心，通过对计算节点 RoCEv2、DCE/DCB 的支持，消除了程序移植带来的复杂性和额外的工作量，降低了计算节点 TCP/IP 堆栈对主机 CPU 的消耗。

高性能计算网络凭借开放性与高性价比在集群平台建设中大放异彩融合PFC/RoCE等技术，高性能计算网络不仅具备开放性，且在不影响计算效率的前提下降低成本，使其在集群平台建设中脱颖而出。PFC/RoCE等技术的支撑，使得高性能计算网络具备更高的开放性，在没有降低计算效率的前提下，降低了整个高性能集群平台建设的成本。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

世良情感网

薪科技快评