揭秘数据中心、HPC与AI的网络互连协议

薪科技快评 2024-05-22 08:18:53
数据中心、HPC领域、AI领域等场景互联协议混战

当前,数据中心、高性能计算及AI领域正面临全新数据设备互联协议标准的激烈竞争。主流标准包括CXL、OpenCAPI、GEN-Z、CCIX和NVLink等。从时间线来看,各标准联盟的出现顺序为CAPI、GenZ、CCIX和CXL。这场技术角逐,正深刻影响着数据处理与传输的未来。

OpenCAPI与CXL即将发布联合公告,OpenCAPI标准及资产将融入CXL财团。此举将巩固CXL作为领先的CPU到设备互连标准的地位,获得几乎所有主要制造商的支持,同时吸收竞争标准,进一步巩固其市场地位。这一合作预示着连接技术的重大变革。

一、设备互联协议的背景

众所周知,在开放平台下,PCIE是目前高性能I/O设备普遍采用的总线类型,目前已经到Gen4,很快会到Gen5。但是PCIE总线的树形拓扑以及有限的设备标识ID号码范围,导致其无法形成一个大规模网络,这个问题在NVMe盘未普及之前显得不那么是个问题,但是NVMe盘得到广泛应用之后,会占用大量的PCIE同道数量,这使得原本捉襟见肘的PCIE总线资源更加紧张,GPU、NIC、FPGA/ASIC卡的接入数量就会被NVMe盘挤占.

虽然可以用PCIE Switch来解决同道数量不够的问题,但是对于PCIE总线设备ID号的不足,PCIE Switch也并没有方便的解决方案,虽然可以用NTB方式来解决,但是这又需要在Host端OS内核底层增加一层驱动,这种对内核的变更使得该方案只适合用在封闭系统里,比如一些企业级存储系统。

PCIE面临两大挑战:存储器地址空间隔离与Cache Coherency事务不支持。尽管其64位地址空间设计私有,与CPU地址空间非原生融合,需依赖地址翻译寄存器。但在Intel平台上,软件直接执行翻译,规则简化至维持原地址,无需转换,确保了高效的地址管理。

CPU与PCIE设备虽能互访地址空间,但PCIE事务层不支持Cache Coherence,因此PCIE设备端无法缓存CPU地址域数据。这意味着,为获取数据,设备每次均需直接访问Host RAM,导致效率受限。

设备端无缓存时,每次直接访问Host RAM会遭遇高延迟挑战。DDR通道内存访问延迟约40ns,而PCIE访问则高达100ns级别,这对小尺寸访存请求性能尤为不利。因此,GPU、FPGA/ASIC等加速卡普遍采取策略:先将数据从Host RAM拷贝至加速卡内部存储器进行计算,完成后再返回Host RAM,以确保高效处理性能。

解决上述难题,关键在于两策:提升总线速率以减少访问延迟,同时,在物理链路上增设对Cache Coherency(CC)事务的处理机制,即在设备端加入CC Agent与CPU端Agent互动,确保高效协同。

基于以上原因,各大公司开始分别组建了几个互联协议联盟。

二、主要设备互联协议介绍

1. CXL

成立时间:2019年,牵头方:英特尔

英特尔引领成立CXL标准组织,旨在实现CPU与GPU、FPGA等加速芯片的快速互联,从而提升数据中心性能,引领未来科技风潮。此举将有力推动下一代数据中心的迅猛发展。

与CXL齐名的标准组织有CCIX、OpenCAPI、Gen-Z Consortium,它们于2016年诞生,均基于PCIe底层连接协议。众多巨头如AMD、IBM、Xilinx、华为等均积极参与其中,共同推动技术革新。这些组织携手并进,共同塑造着未来计算与通信的新格局。

2. Gen-Z

成立时间:2016年,牵头方:惠普

Gen-Z是行业巨头们打破Intel技术垄断的联手之作,一个新型高速互连标准。AMD、ARM、博通、Cray、戴尔EMC、HPE、华为、IBM、联想、Mellanox(NVIDIA)、美光、红帽、三星、希捷、SK海力士、西数、赛灵思等巨头齐聚一堂,涵盖CPU、模组、网络、服务器、存储、连接器、操作系统、硬盘、FPGA等领域。大陆连接器线缆领军者立迅精密亦位列其中,共同开创互联新时代。

3. OpenCAPI

成立时间:2016年,牵头方:IBM

科技巨头IBM、AMD、DELL、EMC、谷歌、HPE、Mellanox、Micron、NVIDIA和Xilinx携手成立OpenCAPI技术联盟,发布创新开放式规范。该规范显著提升数据中心服务器性能至10倍,赋能企业和云数据中心,高效处理大数据、机器学习、分析及新兴工作负载,引领行业进入全新高性能时代。

4. CCIX

成立时间:2016年

AMD、ARM、Mellanox、华为、IBM、高通和赛灵思七巨头联手创立CCIX联盟,旨在统一异构计算加速器标准。CCIX旨在通过提升互连速度和实现缓存一致性,加快异构多处理器系统中内存访问速度。联盟将专注于确保硬件加速器以缓存一致方式共享内存,推动异构计算领域的新发展。

5. NVLink

6. Infinity Fabric

AMD自己的标准,专门用于将自家的 EPYC处理器和加速器进行连接。

三、总结:

OpenCAPI并入CXL,确立了英特尔支持的标准作为主导互连标准,预示行业未来方向。Gen-Z标准亦被CXL吸纳,而CCIX已逐渐落后,其支持者纷纷加入CXL联盟。尽管首批CXL支持的CPU尚未发货,但CXL已扫除前行障碍,成为行业瞩目的焦点。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:7

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!