再谈显卡接口标准：PCIe&Nvlink

历代显卡接口标准诸多，如：PCI、PCIe、CrossFire、ThunderBolt、Nvlink等，当前主流的显卡接口标准主要是：PCIe和Nvlink。本文章将重点介绍这2种主流显卡接口标准。

在当前数据中心和HPC环境中，PCIe接口和NVLink接口是主流的两个用于连接GPU到主板的接口标准。

接口标准

特点

应用

PCIe

通用性强：PCIe接口是当前最常见的GPU接口，几乎所有的服务器主板都支持。

广泛使用：适用于大多数GPU服务器，支持单GPU和多GPU配置。扩展性强：通过PCIe插槽，可以方便地增加或更换GPU。

带宽：最新的PCIe 4.0每条通道的带宽为16 GT/s，16条通道（x16）配置下总带宽为32 GB/s。PCIe 5.0的带宽则翻倍，达到每条通道32 GT/s，总带宽64 GB/s。

兼容性好：PCIe接口可以兼容各种类型的扩展卡，不仅限于GPU，还包括网卡、存储控制器等。

NVLink

高带宽：NVLink提供比PCIe更高的带宽。NVLink 2.0每条链路的带宽为25 GB/s，NVLink 3.0则提升到50 GB/s以上，总带宽可以达到每条链路100 GB/s。

高性能计算：在需要高带宽和低延迟的AI训练任务中，使用NVLink互连的GPU可以更高效地进行并行计算。DGX系统：如NVIDIA DGX系列服务器，多个Tesla V100或A100 GPU通过NVLink互连，专门用于AI和深度学习训练。

低延迟：NVLink的通信延迟更低，适合需要频繁数据交换的高性能计算任务。

多GPU互连：允许多个GPU直接互连，形成高效的计算集群，显著提升数据交换效率和计算性能。

PCIe通道标准：（目前主流x16）

维度

详细解释

PCIe

Peripheral Component Interconnect Express，高速串行计算机扩展总线标准，用于连接主板和高速组件。

1 条传输通道，总带宽为单向 250 MB/s（Gen1）到 8 GB/s（Gen6），双向带宽为 500 MB/s（Gen1）到 16 GB/s（Gen6）。

4 条传输通道，总带宽为单向 1 GB/s（Gen1）到 32 GB/s（Gen6），双向带宽为 2 GB/s（Gen1）到 64 GB/s（Gen6）。

8 条传输通道，总带宽为单向 2 GB/s（Gen1）到 64 GB/s（Gen6），双向带宽为 4 GB/s（Gen1）到 128 GB/s（Gen6）。

x16

16 条传输通道，总带宽为单向 4 GB/s（Gen1）到 128 GB/s（Gen6），双向带宽为 8 GB/s（Gen1）到 256 GB/s（Gen6）。

实际应用

常用于连接高性能显卡、网络接口卡、固态硬盘等设备，适用于高性能计算和数据传输需求。

PCIe代际对比：

PCIe 代际

编码方式

编码效率

每通道传输速率

实际数据传输率（单向）

单通道带宽（单向）

实际数据传输率（双向）

单通道带宽（双向）

Gen1

8b/10b

80%

2.5 GT/s

2.0 Gbps

250 MB/s

4.0 Gbps

500 MB/s

Gen2

8b/10b

80%

5.0 GT/s

4.0 Gbps

500 MB/s

8.0 Gbps

1,000 MB/s

Gen3

128b/130b

98.46%

8.0 GT/s

7.877 Gbps

984.6 MB/s

15.754 Gbps

1,969.2 MB/s

Gen4

128b/130b

98.46%

16.0 GT/s

15.754 Gbps

1,969 MB/s

31.508 Gbps

3,938 MB/s

Gen5

128b/130b

98.46%

32.0 GT/s

31.508 Gbps

3,938 MB/s

63.016 Gbps

7,877 MB/s

Gen6

128b/130b

98.46%

64.0 GT/s

63.016 Gbps

7,877 MB/s

126.032 Gbps

15,754 MB/s

NVLink 作为 NVIDIA 提供的一种用于多显卡高速互通的技术，其物理形态根据应用场景和硬件设计的不同，有多种表现形式：

物理形态

外观

作用

特点

NVLink 连接器

通常位于显卡的顶部边缘，显卡可以通过这个连接器与其他显卡进行互联。

短而宽的接口，设计紧凑，通常有两个或多个这样的接口。

用于连接 NVLink Bridge，实现多块显卡之间的高速数据通信。

NVLink Bridge

（桥接器）

独立的硬件组件，形状和大小取决于显卡型号和桥接的 GPU 数量。

硬件桥接器，将多块支持 NVLink 的显卡连接在一起，形成高速互通的网络。

双卡桥接器：用于连接两块 GPU；多卡桥接器：用于连接三块或更多显卡。

SXM 模块（Scalable NVLink Module - 可扩展的NVlink模块）

与传统 PCIe 显卡外观差异较大，它直接安装在带有 NVLink 通道（如NVSwitch等）的专有主板上。

模块化接口，通常用于数据中心显卡，通过板载的 NVLink 实现多 GPU 之间的高速通信。

集成设计，GPU 不再使用 PCIe 接口，而是直接与主板连接；多 GPU 支持，适用于高性能计算和 AI 训练。

NVSwitch

独立的板卡，安装在服务器内部，连接多块 GPU 的 NVLink 通道。

专用硬件设备，用于大规模数据中心和超算系统中多 GPU 间的全互联通信。

主要用于 NVIDIA DGX 系列服务器或其他超算系统，实现无瓶颈的全互联。

NVLink Cable

专门设计的高速数据线缆，配有特殊的接口和线缆设计，以支持高带宽数据传输。

通过专用线缆进行跨机箱或跨节点的连接，用于更远距离的 GPU 互联。

数据中心特殊用途

NVLink 连接器：显卡顶部的接口，供 NVLink Bridge 连接使用。NVLink Bridge（桥接器）：连接两块或多块显卡的硬件桥接器，实现 GPU 间的高速互通。SXM 模块：用于数据中心和高性能计算中的专用接口，直接集成 NVLink 通道。NVSwitch：用于大规模多 GPU 系统的全互联设备。NVLink Cable：用于跨机箱或跨节点的 GPU 互联线缆。

NVLink 代际对比：

代际

NVLink 总带宽

每个 GPU 最大链路数

NVIDIA 架构支持

第二代

300GB/s

NVIDIA Volta™ 架构

第三代

600GB/s

NVIDIA Ampere 架构

第四代

900GB/s

NVIDIA Hopper™ 架构

第五代

1800GB/s

NVIDIA Blackwell 架构

NVLink Bridge：（NVLink桥接器）

虽然主板上已经有PCIe接口或NVLink接口，但NVLink Bridge、NVSwitch和NVLink Switch进一步提升了GPU间(同主机和跨主机)的通信性能，特别是在多GPU配置和大规模GPU集群中。

这些额外的硬件组件提供了更高的带宽和更低的延迟，使得GPU间的数据交换更加高效，从而显著提升了AI训练和高性能计算的整体性能。

NVlink Bridge

显卡自带的NVlink接口，用于连接NVlink Bridge

NVlink Bridge的NVlink接口

NVIDIA NVLink 2-Slot 和 3-Slot Interconnect Bridges 之间的主要区别在于它们连接 GPU 插槽的方式：

特性

2-Slot Interconnect Bridge

3-Slot Interconnect Bridge

连接方式

连接两个相邻的 GPU 插槽

连接两个相隔一个插槽的 GPU

适用插槽布局

插槽 1 和插槽 2，或者插槽 3 和插槽 4 等

插槽 1 和插槽 3，或者插槽 2 和插槽 4 等

物理形态

较短的桥接器，适用于相邻插槽

较长的桥接器，跨过一个插槽连接 GPU

应用场景

当两个 GPU 安装在相邻插槽时使用

当两个 GPU 之间有一个空槽或其他设备时使用

NVSwitch：

NVSwitch 是NVIDIA专为高性能计算和AI应用设计的高带宽低延迟互连交换芯片。NVSwitch 本身是一个高性能芯片，类似于其他集成电路芯片，集成在系统主板或特定的互连模块中。NVSwitch 是一种专用于GPU间高性能互连的芯片，而不是一个独立的设备。NVSwitch ≠ NVLink Switch，NVLink Switch将NVSwitch芯片整合到一个交换机中。

2块GPU卡高速互联或3块及以上GPU卡高速互联：

互联方式

适用显卡数量

连接方式

优点

适用场景

NVLink Bridge

2块显卡

通过NVLink Bridge直接连接2块GPU

高带宽（每条链路50 GB/s），低延迟，直接互联。

小型AI训练任务，多GPU协作的工作负载。

NVSwitch

3块及以上显卡

通过NVSwitch形成GPU全互连网络

极高带宽（总带宽2.4 TB/s），支持多达16块GPU的全互连，灵活的拓扑结构，低延迟。

大型AI训练集群，超级计算机，高性能计算任务。

！！！【点赞】、【关注】不走丢^_^

世良情感网

龅牙兔谈科技