突破PCIe枷锁：NVIDIA和AMD新芯片解锁超高速传输

英伟达和AMD新芯片，突破PCIe限制

CPU 与 GPU 的融合：现代计算的 “8087 时刻”

过去，CPU 依赖外部数学协处理器来提升浮点性能。如今，这一趋势正在逆转。随着 NVIDIA GH-200 处理器和 AMD MI300A APU 的推出，GPU 已被纳入 CPU 架构中。

GPU 嵌入式处理器的崛起

GPU 以其加速数学处理的强大功能而闻名。通过将 GPU 集成到 CPU 中，NVIDIA 和 AMD 已实现 HPC 性能的显著提升。

外部性能硬件的吸收

这一融合标志着计算领域的“8087 时刻”，类似于早期 CPU 吸收可选数学协处理器。它预示着外部性能硬件逐渐被 CPU 自身吸收的未来趋势。

再见 PCI

GPU 与 CPU 内存连接瓶颈

传统上，英伟达和 AMD 的 GPU 通过 PCI 总线与 CPU 通信。由于 CPU 和 GPU 拥有独立的内存域，数据必须通过 PCI 接口在两者之间移动，造成带宽瓶颈。

英伟达 Grace Hopper GH200 GPU

英伟达的 Grace Hopper GH200 GPU 通过 900 GB/秒的 NVLink-C2C 连接解决这一瓶颈，比传统 PCIe 总线快约 14 倍。此外，GH200 实现了单一的 CPU-GPU 共享内存域，消除了数据移动需求。

GH200 内存架构

GH200 拥有高达 480 GB 的 LPDDR5X CPU 内存和 96 GB 或 144 GB 的 HBM3 GPU 内存。这些内存总和为 576 GB 至 624 GB，在 CPU 和 GPU 之间完全互通。

AMD Instinct MI300A APU

AMD 的 Instinct MI300A APU 也采用了单一内存域，通过 Infinity Fabric 在 CPU 和 GPU 之间一致共享 128 GB HBM3 内存。封装峰值吞吐量达到 5.3 TB/秒。虽然目前不支持外部内存扩展，但 CXL 将提供未来升级潜力。

单一存储域的优势

GH200 和 MI300A 的单一存储域消除了传统方法中的 GPU 内存限制。这对于需要在内存中加载大型模型并使用 GPU 运行的高性能计算 (HPC) 和生成式人工智能 (GenAI) 至关重要。

统一内存扩展

GH200 可通过外部 NVLink 连接创建高达 20 TB 的统一内存，进一步突破内存容量限制。

离你的桌面并不远

从高端技术到低成本大宗商品市场：高性能计算的转变

高性能计算 (HPC) 正在经历从昂贵的新技术向更经济的大宗商品市场转型的趋势。一个显着的变化是迁移到单一内存域，将从多核到高级内存的所有组件从高端转移到“移动”设备。

GPTshop.ai 的 GH200 工作站：为 HPC 和 GenAI 提供低成本解决方案

在 Linux 基准测试网站 Phoronix 上，测试人员 Michael Larabel 在 GH200 工作站上运行了 HPC 基准测试。该系统采用 GPTshop.ai 的 Grace Hopper 超级芯片，提供令人印象深刻的 576GB 内存，双 2000+ W 电源和灵活的配置选项。

低噪音、高功率：非数据中心环境的理想选择

GH200 的一个独特功能是其 TDP 可编程范围为 450W 至 1000W（CPU + GPU + 内存），使其非常适合非数据中心环境。此外，其默认风冷噪音仅为 25 分贝，提供安静的操作体验。液体冷却也是一项选择。

具有成本效益的单域内存解决方案

尽管 GH200 并非低价产品，但其起价为 47,500 欧元（约合 41,000 美元），考虑到目前 Nvidia H100 PCIe GPU 的价格在 3 万至 3.5 万美元之间，再加主机系统成本，这个价格就变得极具吸引力。

GPTshop 工作站提供 576GB 单域内存，对于需要大量 CPU-GPU 内存的 HPC 和 GenAI 用户来说，这是一个极具价值的优势，大大超过了 H100 GPU 80GB 内存的限制。

初步基准

借助 GPTshop，Phoronix 可远程执行多项基准测试。基准应被视为初步结果，而非最终性能评估。这些测试仅针对 CPU，未加入 Hopper A100 GPU。因此，基准图并不完整。Phoronix 计划未来扩展测试至基于 GPU 的应用程序。

基准环境采用 Ubuntu 23.10、Linux 6.5 及 GCC-13 作为标准编译器。为确保测试一致性，采用了类似环境对可比较处理器进行测试，包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。完整列表请见 Phoronix 网站。

遗憾的是，无法获得基准测试运行期间的功耗数据。据 Phoronix 报告，Nvidia GH200 目前尚未在 Linux 上公开可用于读取其功率/能源使用情况的 RAPL/PowerCap/HWMON 接口。尽管系统 BMC 可通过 Web 界面显示整个系统的功耗，但这些数据无法通过 IPMI 访问。

尽管存在这些限制，本研究首次在 Nvidia 之外的环境中对 GH200 进行了一些关键基准测试。

好奥莱 HPCG

Arm GH200 性能表现

在 HPCG 内存带宽基准测试中，Arm GH200 以 42 GFLOPS 的性能表现脱颖而出，高于 Xeon Platinum 8380 2P（40 GFLOPS）和 Ampere Altra Max（41 GFLOPS）。

GH200 在 NWChem 基准测试中同样表现出色，使用 72 核 Arm GH200，NWChem（C240-Bucky Ball）运行时间仅为 1404 秒，仅次于领先者 128 核 Epyc 9554（1323 秒）。

值得注意的是，72 核 Arm Grace CPU 的性能接近 Ampere Altra Max 128 核 Arm 处理器的两倍。

即将发生的事情

高端 CPU 融入 GPU 架构，推动 AI 发展

NVIDIA GH200 和 AMD MI300A 引入了新的处理器架构，将 GPU 集成到 CPU 中。与过去吸收数学协处理器类似，这标志着高端 CPU 开始吸收 GPU，成为“专用”处理器。

GenAI 需求推动价格下降

尽管这些高端处理器目前价格昂贵，但对生成式 AI (GenAI) 的巨大兴趣可能会将它们的价格推向商品价位。随着更多基准的出现，这一趋势将持续发展。

个人高性能工作站的崛起

拥有充足内存的个人高性能工作站的出现具有重要意义。它们可以在办公室运行大型语言模型 (LLM)，并支持诸如大内存 GPU 优化高性能计算 (HPC) 应用程序等工作负载。

数据中心和云依然重要，但个人工作站提供“重置按钮”

数据中心和云仍然是计算的主力，但个人高性能工作站的出现提供了灵活性。用户可以在本地运行 LLMs 和 HPC 应用程序，而无需依赖云或数据中心。

-对此，您有什么看法见解？-

-欢迎在评论区留言探讨和分享。-

世良情感网

突破PCIe枷锁：NVIDIA和AMD新芯片解锁超高速传输

薪科技快评