历代显卡接口标准诸多,如:PCI、PCIe、CrossFire、ThunderBolt、Nvlink等,当前主流的显卡接口标准主要是:PCIe和Nvlink。本文章将重点介绍这2种主流显卡接口标准。
在当前数据中心和HPC环境中,PCIe接口和NVLink接口是主流的两个用于连接GPU到主板的接口标准。
接口标准
特点
应用
PCIe
通用性强:PCIe接口是当前最常见的GPU接口,几乎所有的服务器主板都支持。
广泛使用:适用于大多数GPU服务器,支持单GPU和多GPU配置。扩展性强:通过PCIe插槽,可以方便地增加或更换GPU。带宽:最新的PCIe 4.0每条通道的带宽为16 GT/s,16条通道(x16)配置下总带宽为32 GB/s。PCIe 5.0的带宽则翻倍,达到每条通道32 GT/s,总带宽64 GB/s。
兼容性好:PCIe接口可以兼容各种类型的扩展卡,不仅限于GPU,还包括网卡、存储控制器等。
NVLink
高带宽:NVLink提供比PCIe更高的带宽。NVLink 2.0每条链路的带宽为25 GB/s,NVLink 3.0则提升到50 GB/s以上,总带宽可以达到每条链路100 GB/s。
高性能计算:在需要高带宽和低延迟的AI训练任务中,使用NVLink互连的GPU可以更高效地进行并行计算。DGX系统:如NVIDIA DGX系列服务器,多个Tesla V100或A100 GPU通过NVLink互连,专门用于AI和深度学习训练。低延迟:NVLink的通信延迟更低,适合需要频繁数据交换的高性能计算任务。
多GPU互连:允许多个GPU直接互连,形成高效的计算集群,显著提升数据交换效率和计算性能。
PCIe通道标准: (目前主流x16)
维度
详细解释
PCIe
Peripheral Component Interconnect Express,高速串行计算机扩展总线标准,用于连接主板和高速组件。
x1
1 条传输通道,总带宽为单向 250 MB/s(Gen1)到 8 GB/s(Gen6),双向带宽为 500 MB/s(Gen1)到 16 GB/s(Gen6)。
x4
4 条传输通道,总带宽为单向 1 GB/s(Gen1)到 32 GB/s(Gen6),双向带宽为 2 GB/s(Gen1)到 64 GB/s(Gen6)。
x8
8 条传输通道,总带宽为单向 2 GB/s(Gen1)到 64 GB/s(Gen6),双向带宽为 4 GB/s(Gen1)到 128 GB/s(Gen6)。
x16
16 条传输通道,总带宽为单向 4 GB/s(Gen1)到 128 GB/s(Gen6),双向带宽为 8 GB/s(Gen1)到 256 GB/s(Gen6)。
实际应用
常用于连接高性能显卡、网络接口卡、固态硬盘等设备,适用于高性能计算和数据传输需求。
PCIe代际对比:
PCIe 代际
编码方式
编码效率
每通道传输速率
实际数据传输率(单向)
单通道带宽(单向)
实际数据传输率(双向)
单通道带宽(双向)
Gen1
8b/10b
80%
2.5 GT/s
2.0 Gbps
250 MB/s
4.0 Gbps
500 MB/s
Gen2
8b/10b
80%
5.0 GT/s
4.0 Gbps
500 MB/s
8.0 Gbps
1,000 MB/s
Gen3
128b/130b
98.46%
8.0 GT/s
7.877 Gbps
984.6 MB/s
15.754 Gbps
1,969.2 MB/s
Gen4
128b/130b
98.46%
16.0 GT/s
15.754 Gbps
1,969 MB/s
31.508 Gbps
3,938 MB/s
Gen5
128b/130b
98.46%
32.0 GT/s
31.508 Gbps
3,938 MB/s
63.016 Gbps
7,877 MB/s
Gen6
128b/130b
98.46%
64.0 GT/s
63.016 Gbps
7,877 MB/s
126.032 Gbps
15,754 MB/s
NVLink 作为 NVIDIA 提供的一种用于多显卡高速互通的技术,其物理形态根据应用场景和硬件设计的不同,有多种表现形式:
物理形态
外观
作用
特点
NVLink 连接器
通常位于显卡的顶部边缘,显卡可以通过这个连接器与其他显卡进行互联。
短而宽的接口,设计紧凑,通常有两个或多个这样的接口。
用于连接 NVLink Bridge,实现多块显卡之间的高速数据通信。
--
NVLink Bridge
(桥接器)
独立的硬件组件,形状和大小取决于显卡型号和桥接的 GPU 数量。
硬件桥接器,将多块支持 NVLink 的显卡连接在一起,形成高速互通的网络。
双卡桥接器:用于连接两块 GPU;多卡桥接器:用于连接三块或更多显卡。
SXM 模块(Scalable NVLink Module - 可扩展的NVlink模块)
与传统 PCIe 显卡外观差异较大,它直接安装在带有 NVLink 通道(如NVSwitch等)的专有主板上。
模块化接口,通常用于数据中心显卡,通过板载的 NVLink 实现多 GPU 之间的高速通信。
集成设计,GPU 不再使用 PCIe 接口,而是直接与主板连接;多 GPU 支持,适用于高性能计算和 AI 训练。
NVSwitch
独立的板卡,安装在服务器内部,连接多块 GPU 的 NVLink 通道。
专用硬件设备,用于大规模数据中心和超算系统中多 GPU 间的全互联通信。
主要用于 NVIDIA DGX 系列服务器或其他超算系统,实现无瓶颈的全互联。
NVLink Cable
专门设计的高速数据线缆,配有特殊的接口和线缆设计,以支持高带宽数据传输。
通过专用线缆进行跨机箱或跨节点的连接,用于更远距离的 GPU 互联。
数据中心特殊用途
NVLink 连接器:显卡顶部的接口,供 NVLink Bridge 连接使用。NVLink Bridge(桥接器):连接两块或多块显卡的硬件桥接器,实现 GPU 间的高速互通。SXM 模块:用于数据中心和高性能计算中的专用接口,直接集成 NVLink 通道。NVSwitch:用于大规模多 GPU 系统的全互联设备。NVLink Cable:用于跨机箱或跨节点的 GPU 互联线缆。NVLink 代际对比:
代际
NVLink 总带宽
每个 GPU 最大链路数
NVIDIA 架构支持
第二代
300GB/s
6
NVIDIA Volta™ 架构
第三代
600GB/s
12
NVIDIA Ampere 架构
第四代
900GB/s
18
NVIDIA Hopper™ 架构
第五代
1800GB/s
18
NVIDIA Blackwell 架构
NVLink Bridge:(NVLink桥接器)
虽然主板上已经有PCIe接口或NVLink接口,但NVLink Bridge、NVSwitch和NVLink Switch进一步提升了GPU间(同主机和跨主机)的通信性能,特别是在多GPU配置和大规模GPU集群中。
这些额外的硬件组件提供了更高的带宽和更低的延迟,使得GPU间的数据交换更加高效,从而显著提升了AI训练和高性能计算的整体性能。
NVlink Bridge
显卡自带的NVlink接口,用于连接NVlink Bridge
NVlink Bridge的NVlink接口
NVIDIA NVLink 2-Slot 和 3-Slot Interconnect Bridges 之间的主要区别在于它们连接 GPU 插槽的方式:
特性
2-Slot Interconnect Bridge
3-Slot Interconnect Bridge
连接方式
连接两个相邻的 GPU 插槽
连接两个相隔一个插槽的 GPU
适用插槽布局
插槽 1 和 插槽 2,或者 插槽 3 和 插槽 4 等
插槽 1 和 插槽 3,或者 插槽 2 和 插槽 4 等
物理形态
较短的桥接器,适用于相邻插槽
较长的桥接器,跨过一个插槽连接 GPU
应用场景
当两个 GPU 安装在相邻插槽时使用
当两个 GPU 之间有一个空槽或其他设备时使用
NVSwitch:
NVSwitch 是NVIDIA专为高性能计算和AI应用设计的高带宽低延迟互连交换芯片。NVSwitch 本身是一个高性能芯片,类似于其他集成电路芯片,集成在系统主板或特定的互连模块中。NVSwitch 是一种专用于GPU间高性能互连的芯片,而不是一个独立的设备。NVSwitch ≠ NVLink Switch,NVLink Switch将NVSwitch芯片整合到一个交换机中。2块GPU卡高速互联或3块及以上GPU卡高速互联:
互联方式
适用显卡数量
连接方式
优点
适用场景
NVLink Bridge
2块显卡
通过NVLink Bridge直接连接2块GPU
高带宽(每条链路50 GB/s),低延迟,直接互联。
小型AI训练任务,多GPU协作的工作负载。
NVSwitch
3块及以上显卡
通过NVSwitch形成GPU全互连网络
极高带宽(总带宽2.4 TB/s),支持多达16块GPU的全互连,灵活的拓扑结构,低延迟。
大型AI训练集群,超级计算机,高性能计算任务。
!!!【点赞】、【关注】不走丢^_^
!!!【点赞】、【关注】不走丢^_^