AMD Zen 5架构深入研究
在Zen 5技术日上,AMD隆重推出了其最新锐龙9000系列—“Granite Ridge”以及Ryzen AI 300系列—“Strix Point”。此次展示深入剖析了公司下一代芯片的卓越性能与创新力。AMD 一直在缓慢地公布 Zen 5 处理器的细节,但今天我们可以分享更多关于桌面和移动 Ryzen 处理器与竞争对手 Intel、Apple 和 Qualcomm 处理器的详细 AMD 基准测试。
AMD 推出了一系列新主板,并深入介绍了 Zen 5 CPU、RDNA 3.5 GPU 和 XDNA 2 NPU 微架构。 这些架构不仅提升了 AMD 产品的性能和能效,还为未来的计算和人工智能应用奠定了坚实的基础。
AMD和英伟达在2024年的Computex上发表主题演讲。其中,AMD的主题演讲聚焦于CPU、GPU和UA互联厂商,而英伟达的主题演讲则聚焦于AI时代如何在全球范围内推动新的工业革命。此外,还有科技前瞻专题、AIoT白皮书等内容。
AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新
AMD 的 Zen 5 芯片采用全新的微架构,不断改进,每周期指令 (IPC) 吞吐量平均提高 16%。正如您在上面的路线图中看到的,Zen 5 架构将在其生命周期内跨越 4nm (N4P) 和 3nm 工艺节点。这意味着,就像该公司的其他几代微架构一样,我们可以期待具有更高性能的第二代模型在更小的工艺节点上出现。AMD Zen 5 Ryzen 9000 "Granite Ridge" 基准测试和规格
我们已经涵盖了 Ryzen 9000 系列的产品堆栈,如下所示。需要提醒的是,除旗舰型号外,所有型号的 TDP 都低于其前代产品,但仍提供令人印象深刻的代际性能提升。AMD 仍未公布价格,但我们被告知将在 Ryzen 9000 的 7 月 31 日发布之前宣布价格。所有 Ryzen 9000 型号都可以插入现有的 AM5 平台,并支持即将推出的 800 系列芯片组系列。因此,这些芯片支持许多与之前相同的功能,包括 PCIe 5.0 和 DDR5-5600 内存。与所有供应商提供的基准测试一样,对这些测试结果应持保留态度。AMD Zen 5 Ryzen 9000 系列性能
AMD 之前分享了其旗舰 16 核 32 线程 Ryzen 9 9950X 相对于 Intel Core 9-14900K 的基准测试,生产力性能平均提升 21%,游戏性能提升 11%。值得注意的是,生产力提升的一部分来自 Ryzen 9000 在 AVX-512 工作负载中的性能翻倍,但在其他类型的工作负载中的提升也同样令人印象深刻。
AMD 的 12 核 24 线程 Ryzen 9 9900X 在与 14900K 的比较中同样令人印象深刻,在一系列生产力应用中领先 2% 到 41%。在一系列游戏中,它也领先 4% 到 22%。总的来说,这些数字平均表现出对 Intel 旗舰产品在生产力和游戏方面的约 10% 的领先优势。Ryzen 9 9900X 的胜利尤为值得注意,因为这款 120/162W 的芯片(比前代峰值降低 68W)面对的是一款 125/253W 的 Intel 芯片,后者在移除功率限制后通常达到 350W。
当然,Intel 的 Arrow Lake 芯片将于今年晚些时候推出,以挑战这一功率/性能领先地位。八核 16 线程的 Ryzen 7 9700X 在基准测试中与 Core i7-14700K 竞争。尽管 AMD 的 65/88W 低功耗芯片面对的是 125/253W 的 Intel 模型,AMD 在生产力工作中的优势变得更加显著。总体而言,AMD 声称在生产力应用中领先约 13%,在游戏中领先 10%。
六核 12 线程的 Ryzen 5 9600X 与 Core i5-14600K(分别为 88W 对 181W 的峰值功耗)竞争,在生产力性能方面领先 22%(除去 HandBrake 异常值则为 15%),在游戏中领先 11%。这代表了 Zen 5 CPU 堆栈底部的强劲性能提升。AMD 还包括了 AI 基准测试,突出了其对 VNNI(AI 优化指令集)的支持在 Zen 5 处理器上运行 Llama 和 Mistral 大型语言模型(LLM)的优势。正如你所见,Ryzen 9 9900X 轻松击败了 14900K,但我们认为这不是一个非常相关的比较——大多数人会直接在 GPU 上运行这些模型。AMD 还展示了其相对于 Intel 当前芯片的 PCIe 通道优势,这在运行多个 GPU 的 AI 模型时表现出更高的性能,同时保持附加 SSD 的完整 PCIe 5.0 速度。AMD 在这些 AI 工作负载中获胜,但我们认为这些对大多数桌面 PC 用户来说不是相关的工作负载。
AMD Ryzen 9000 系列游戏性能
AMD 强调了 Zen 5 在游戏性能上的飞跃,比较了 9700X 和最快的 Zen 3 游戏芯片 Ryzen 7 5800X3D。在发布 AM4 平台之后很久,Zen 3 驱动的 5800X3D 仍在 AMD 的较新标准 Zen 4 处理器中保持显著的领先地位——到目前为止,它比最快的标准 Zen 4 芯片高出约 8%。
现在,你需要升级到更昂贵的 Zen 5 X3D 型号才能在游戏中超过 5800X3D,但 AMD 声称 Zen 5 Ryzen 7 9700X 在 1080p 游戏中比 5800X3D 快约 12%,尽管其功耗低 40W。值得注意的是,AMD 避免了将其新芯片与其前一代 Zen 4 模型进行比较,但表示 9700X 将比目前市场上最好的游戏 CPU Ryzen 7 7800X3D 高出 "几个百分点"。这些结果表明 Ryzen 7 9700X 比前一代 Ryzen 7 7700X 的游戏性能提高了约 20%。个别游戏结果仍然值得一看。在 AMD 的测试中,9700X 未能在某些游戏中击败 5800X3D,更不用说较新的 7800X3D 了。对于那些非常喜欢大 L3 缓存的游戏,IPC 和其他改进仍然无法弥补差距,我们需要等待不可避免的 Zen 5 X3D 部件在今年晚些时候到来。
TSMC N4P 节点和 Zen 5 IPCAMD 的工程师证实了我们对 Zen 5 处理器使用 TSMC N4P 节点的怀疑,这比 Zen 4 的 5nm 节点有了显著的改进。这很重要,因为 TSMC 的标准 4nm 节点(N4)比 5nm 改进不大,而 N4P 在 4nm 系列中提供了最佳的代际改进(TSMC 的 4nm 节点正式属于其 5nm 系列)。TSMC 表示,N4P 节点比 N5(5nm)节点性能提升 11%,功效提升 22%,晶体管密度提高 6%(光学缩小)。此外,TSMC 表示,由于 EUV 层数的增加,该工艺的生产使用的掩膜数量减少了 6%,这意味着它更具成本效益。AMD 还为 TSMC 3nm 节点设计了 Zen 5 工艺,但该公司尚未提供该节点的详细信息或这些芯片的发布日期。N4P 工艺节点显然有助于提供更快且更高效的处理器性能。加上 16% 的 IPC 提升,AMD 的 Zen 5 前景非常光明。我们将在 Zen 5 架构页面深入探讨 IPC 增益。首先,让我们来看一下功效、超频、主板和 Ryzen AI 300。
Zen 5 Ryzen 9000 的功效与热量表现
AMD 表示,Ryzen 9000 系列运行温度显著低于其前代产品,从而帮助保持频率驻留在高位(更好的有效频率和更长的加速时长)。这是由于热阻提高了 15%,使得芯片在相同 TDP 下运行温度比 Zen 4 芯片低 7 摄氏度。正如上面的第二张幻灯片所示,Ryzen 9000 改进的热性能使得三款新桌面芯片的 TDP 得以降低,同时在重度多线程工作负载中提供了显著的性能提升,这些工作负载将芯片推向了功率极限。AMD 使用 Blender 基准测试来突出重负载下的性能改进。部分功效改进无疑是由于从 5nm 节点转移到 N4P,但 AMD 还进行了其他有针对性的优化以提高性能。AMD 的工程师表示,Zen 4 设计中的热点是一个挑战,因此他们减少了热点数量,并更好地分散了计算芯片上的剩余热点。工程师们还修复了 Zen 4 在整个芯片上分布的温度传感器的“次优”布局。与更智能的固件控制算法配对,温度传感器的更好布局使得对可用温度余量的控制更加精确。AMD 表示,结果是显著减少了功耗,使系统比上一代型号以及 Intel 的竞品 Raptor Lake Refresh 运行得更冷、更安静。
新的 800 系列芯片组和超频
AMD 的原始 AM4 平台以其长寿命著称,自 2017 年推出以来支持了所有版本的 Ryzen(甚至包括之前的 Bristol Ridge 系列)。现在,它涵盖了 145 个 CPU 和 APU 型号,并且这个列表还在不断增长。AMD 表示,我们可以期待 AM5 持续到 2027 年以后,因为它也是为长远考虑而设计的。AMD 已经在 2024 年 Computex 展会上推出了其顶级的 X870 和 X870E 芯片组,最显著的新增功能是强制加入 USB4 和 PCIe 5.0 支持,无论是用于图形还是存储。现在,AMD 正在宣布面向性价比导向的 B 系列芯片组,除了我们预期的标准 B850,还新增了一个新的层级。新的 B840 主板介于廉价的 A 系列主板和标准完全支持超频的 B850 之间。两个层级之间有几个区别。B840 完全支持内存超频,但不像高端型号那样支持 CPU 超频。B840 主板还只有一个 PCIe 3.0 x16 连接——相对于 B850 主板上的 PCIe 5.0 和 4.0 连接,这是一个很大的削减。B850 和 B840 都支持 USB 3.2,而不是 X 系列主板上的强制 USB 4。
尽管 AMD 的 AM5 定价问题在很大程度上已经缓解,但 B840 的变化创造了一个更便宜的 B 系列主板,特别是为 OEM 提供了更多的价格灵活性。不幸的是,AMD 的 800 系列主板在 Ryzen 9000 处理器于月底发布时不会上市。AMD 表示,各主板供应商将按各自的时间表发布,据我们早期的迹象显示,第一批主板将在 9 月底到货,比 Ryzen 9000 的发布日期晚了不少。Ryzen 9000 芯片完全兼容现有的 AM5 主板(需要进行必要的 BIOS 更新),因此早期采用者有选择。然而,分阶段的发布显然不是理想的。
超频增强和新功能
AMD 还在超频方面进行了多项改进。新的 800 系列 AM5 主板将支持比现有主板更高的内存超频上限。AMD 表示,800 系列可以支持高达 DDR5-8000 的内存超频。Ryzen 9000 还增加了实时内存超频功能,允许你在 Ryzen Master 应用程序中实时更改内存速度和时序。
AMD 还有一个新的内存优化性能配置文件,允许在 JEDEC 和 EXPO 超频配置文件之间手动或自动切换,以根据正在运行的应用程序类型优先考虑带宽或延迟(时序)。你可以在 Ryzen Master 实用程序中在不同配置文件之间切换,或启用自动切换。关于这一机制的细节尚不完全清楚,但我们将在芯片到货测试时了解更多。AMD 现有的 Curve Optimizer 功能允许你为整个电压/频率曲线设置一个负或正偏移,处理器然后在整个曲线上应用这一偏移。新的 Curve Shaper 功能提供了更细致的控制,允许对三个温度点和五个频率点进行调整,为用户提供 15 个控制点。相对于现有机制允许的单点控制,这是一个重大增加。
AMD 的 Ryzen Master 已经有一个自动测试选项,可以分配 Curve Optimizer 偏移。这将继续工作,但不会提供全 15 点的优化——Curve Shaper 需要手动调整。然而,这两个功能可以结合使用,用户可以在分配单个 Curve Optimizer 值的基础上增加 Curve Shaper 点(Curve Shaper 作为一种全局修改器,将调整所有分配的范围)。自动超频 Precision Boost Overdrive (PBO) 也回归了,AMD 表示,Ryzen 9000 的较低 TDP 范围为 PBO 增益提供了更多空间。公司指出,在启用 PBO 的情况下,Ryzen 5、7 和 9 处理器的多线程 Cinebench 性能提高了 6% 到 15%,但未在 PBO 示例中包含 Ryzen 9 9950X(可能是因为增益百分比较低)。我们将在评测中测试所有这些新的超频旋钮。在接下来的内容中,我们将继续探讨 Ryzen AI 300 基准测试,然后讨论 CPU、GPU 和 NPU 架构。
AMD Zen 5 微架构Zen 架构于 2017 年首次亮相,比 Bulldozer 提高了 52% 的 IPC,自那以来每一代都实现了两位数的 IPC 增长。Zen 5 的 IPC 提高了 16%,这是通过 13 个工作负载测量的。Zen 5 显著提高了矢量数学性能,在单核机器学习(VNNI)中比 Zen 4 提高了 32%,在单核 AES-XTS 加密工作负载(AVX-512)中提高了 35%,这些都是通过 Geekbench 子测试测量的。Zen 5 是一个全面改进的架构,其首席架构师 Mike Clark 表示,这将成为未来几代微架构的基础。它还将用于采用 TSMC 4nm 和 3nm 工艺节点的芯片,并且有并行的跨越团队在这两种设计上工作。与 Zen 4 处理器一样,核心计算晶粒(CCD)最多有八个核心和一个大的 32MB 共享 L3 中心。两个 CCD 连接到与 Zen 4 处理器相同的 6nm I/O Die(IOD),因此该芯片提供相同的图形支持和基本连接选项。你可以在上面的第二张图片中看到 Ryzen 9000 的示意图。AMD RDNA 3.5AMD 的 RDNA 3.5 引擎为 Strix Point 处理器中的 Radeon 890M 和 880M 集成显卡提供动力,但 AMD 并未在 Ryzen 9000 处理器中使用它们——这些处理器仍然采用 RDNA 2 架构。AMD 的 Mark Papermaster 将公司与三星的合作(公司将其 RDNA 图形 IP 授权用于 Galaxy 智能手机)视为了解低功耗环境的关键来源。这些经验对同样受电池电量限制的其他移动设计(如笔记本电脑)也非常有用。AMD 将这些经验融入 RDNA 3.5 中,这是对 RDNA 3 引擎的渐进改进,通过一系列优化提高了每瓦特的性能,包括对纹理和着色引擎的有针对性的改变。该设计还通过优化内存子系统提高了每比特性能。Papermaster 表示,这些变化带来了“单位能量消耗的双位数性能提升”。其他改进包括通过将纹理采样单元数量翻倍来实现纹理采样率的翻倍,以为游戏纹理引入更多并行性。AMD 还将像素插值和比较率翻倍,并添加了一个标量算术逻辑单元来识别单次写入操作,然后丢弃它们以提高性能和效率。Papermaster 还指出了一种全新的方法,通过创建更小的子批次来减少对 LPDDR5 内存的访问,并优化内存压缩以减少数据传输,这两者都节省了电能并提高了性能。
AMD XDNA 2 NPU 架构AMD 的 Ryzen AI 300 系列是该公司第三代内置神经处理单元 (NPU) 的处理器。AMD 的 Phoenix 芯片是首款带有内置 NPU 的 x86 处理器,通过 XDNA NPU 提供 10 TOPS 的性能,而 AMD 通过第二代 Hawk Point 模型将这一性能提升至 16 TOPS。XDNA 2 引擎的架构变化使其计算能力提高了 5 倍,能效提高了 2 倍。XDNA 2 还支持同时运行多达 8 个 AI 模型。NPU 性能通常通过 INT8 工作负载中的性能来衡量,这是一种不太精确的数据类型,使用较少的计算和内存来运行模型。然而,模型必须首先量化为 INT8 格式,并且在此过程中会损失一些精度。-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-