AMD锐龙AI300系列处理器深入解读:全面焕新、大幅度提升的AI性能

微型计算机 2024-08-09 11:58:04

在ComputeX 2024展会上,AMD针对移动平台推出了全新的锐龙AI 300系列处理器。在处理器的命名上,AMD跳过了100、200系列,直接进入了300系列,并且加入了“AI”这个时下热门的词汇。由于整个命名体系的改变,我们应该如何解读锐龙AI 300系列处理器呢?在CPU微架构、NPU、GPU方面,新的处理器又有哪些变化和惊喜呢?请看本文的深度解读。

锐龙AI 300系列:新命名、新型号、新AI

AMD之前的移动处理器系列都是“AMD锐龙”+“四位数字”的方式组成,比如锐龙7000、锐龙8000系列等。这一次,AMD一改往日风格,采用了新的命名风格,即“AMD锐龙AI”+“1位系列数字”+“2位字母”+“三位型号数字”的方式,比如“AMD锐龙AI 9 HX 375”。全新的命名方式突出了AI在处理器中的作用,同时简化了用户辨认处理器的方法。

▲AMD锐龙AI 300系列处理器外观图

我们猜测,锐龙AI系列处理器可能将拥有“9”“7”“5”等多个等级的产品,也可能会有“HX”“HS”或者干脆没有英文标识,数字型号方面,性能越大数字越大,比如“375”的性能比“365”强。因此未来我们有可能看到类似“锐龙AI 7 HX 350”这样的处理器型号。

在英文标识方面, 目前只看到了之前往往是代表高性能版本的“HX”,但是在新的产品上,HX标识与前面的数字9一起来表示品牌等级,高端定位但并非高功耗版本,暂时不知道未来的高性能、高功耗版本将启用哪个英文代号。

▲AMD锐龙300 AI系列处理器已经为Windows生态做好了准备

另外,对于锐龙AI 300系列中的“300”,AMD解释这是因为本代产品是其第三代AI处理器产品。那么第一代、第二代在哪里呢?如果长期关注本刊的读者,应该了解早在锐龙7040系列实际上就率先在x86处理器内置了XDNA架构的NPU,我们还写过多篇文章予以介绍,锐龙8040系列则进一步加强了NPU的算力,是AMD第二代AI PC处理器。

▲目前AMD发布了3款锐龙AI 300系列移动处理器

再来看看产品系列。由于产品刚发布没多久,AMD目前只推出了三款锐龙AI 300系列处理器,分别是锐龙AI 9 HX 375、锐龙AI 9 HX 370以及锐龙AI 9 365。其中前两款处理器都是12核心24线程,最高频率为5.1GHz,TDP功耗为28W,厂商也可以在功耗范围内自行选择(15W~54W),内置的GPU都是Radeon 890M。

唯一差别在于,前者的NPU算力比后者高5 TOPS,锐龙AI 9 HX 375为55 TOPS,而锐龙AI 9 HX 370则为50 TOPS,是当前笔记本市场中最高算力的NPU。锐龙AI 9 365规格略低,10核心20线程,GPU型号为Radeon 880M,最高频率降低到5.0GHz。

总的来看,锐龙AI 300系列处理器尚处于发布的早期,产品型号暂时只有高端产品,中高端和中端布局不够齐全。期待AMD再接再厉,尽早将整个锐龙AI 300系列处理器布局全部完成。

全新架构登场:Zen 5+RDNA 3.5+XDNA 2

了解了锐龙AI 300系列处理器的基本规格和命名后,我们来看看有关该处理器架构方面的内容。

宏观架构:多种新模块、新核心的综合体

AMD锐龙AI 300系列处理器采用单芯片设计,产品代号为“Strix Point”。Strix Point采用台积电TSMC N4P生产工艺,这一点和锐龙9000系列桌面处理器相同。我们在介绍锐龙9000系列桌面处理器的文章中也简单介绍了TSMC N4P工艺。

TSMC在N4P工艺的宣传中提到,N4P工艺基于N5工艺开发,采用更多EUV光刻层,“P”的意思是代表其工艺倾向性为性能优先,整体相比N5工艺可比条件下提高大约11%性能,相比原始的N4则提高了6%。能耗比方面,相比N5,N4P提高了22%,整体面积相比N5缩减了6%左右,非常适合使用在高性能处理器的生产制造上。

▲AMD锐龙AI 300系列处理器代号“Strix Point”,这是它的宏观架构图。

Strix Point整体核心面积大约为232.5平方毫米,相比上代产品也就是锐龙8000系列移动处理器的178平方毫米大了不少,这意味着Strix Point的整体性能的提升将会很可观。缓存方面,Strix Point由于核心数量增多,带来了最高达12MB L2缓存和24MB L3缓存,这也是其核心面积大幅度增加的原因之一。

▲Zen 5架构的设计目标

从整体架构来看,Strix Point内部整合了CPU、GPU、NPU以及大量的功能模块,比如视频处理、图像显示、PCIe控制器、内存控制器、电源控制器等,因此整体结构是相当复杂的。AMD给出的结构示意图显示,整个Strix Point包含了4核心8线程、16MB L3缓存的Zen 5核心以及8核心16线程8MB L3缓存的Zen 5c核心。另外还有8个WGP的RDNA 3.5 GPU、32个推理引擎的 XDNA 2 NPU、视频加速单元、音频处理单元、显示控制、系统总线、安全单元、无线连接单元等。

在对外连接方面,Strix Point支持128bit的LPDDR5 7500MT/s或者DDR5 5600MT/s的内存,对外支持16个PCIe 4.0通道,支持4个显示输出流,支持8个USB,其中2个USB 4、1个USB-C 3.2、2个USB-A 3.2 Gen 2以及3个USB-A。另外还有I2C总线、SPI和eSPI、GPIO等功能模块。值得注意的是,上述结构、单元和模块中,除了Zen 5架构已经在锐龙9000系列桌面处理器上使用之外,RDNA 3.5架构和新一代NPU架构也是首次发布。

▲AMD通过Zen 5架构衍生出了大量不同定位和类型的产品

在这里要特别提及一下Strix Point的CPU部分。Strix Point核心内置12个CPU,其中4个为Zen 5经典核心,另外8个为Zen 5c紧凑核心,后者为紧凑型优化版本,和AMD在Zen 4以及Zen 4c上所做的应该如出一辙。在Zen 4c上,AMD通过高密度紧凑型设计、精简模块和工艺布局,带来了核心面积35%的缩减,同时综合性能没有明显降低,功耗表现和性能功耗比则相对应变得更好了。我们将在后文的CPU微架构方面进一步讨论Zen 5和Zen 5c的内容。

Zen 5和Zen 5c:同构混合核心设计方案

AMD在Strix Point上采用全新的Zen 5架构,我们在之前的锐龙9000系列桌面处理器的介绍中详细分析了Zen 5架构的改进,在本文中我们简单总结一下。AMD针对Zen 5的前端、执行、后端等部分都做了设计改动,比如Zen 5架构在前端部分采用全新的下一代分支预测器,其带来了零开销(Zero-Bubble)条件分支预测功能,结合更大的TAGE分支预测器,能够实现整体运行效率的提高。在解码能力方面,Zen 5前端采用了2个4宽度的解码器,每周期最多可以实现8个x86指令的解码。SMT模式下,每个解码器匹配一个管道。

▲Zen 5目前拥有更大、更宽的调度和执行单元。

▲Zen 5的整体微架构设计一览

整体来看,Zen 5相比Zen 4,整体架构做出了巨大的改进和调整,尤其是浮点部分、前端部分的改进尤为巨大,这意味Zen 5在性能表现方面相比Zen 4有相当大的提高。AMD给出了一张表格用于对比Zen 5相对于Zen 4的变化,可以看出主要是整体架构变得更宽、更深、更多,最终带来了Zen 5相比Zen 4 16%的IPC提升。

接下来再来看看有关Zen 5c的内容。Zen 5c是AMD设计的面向高密度计算的紧凑型核心。AMD公布的数据显示,Zen 5c相比Zen 5,每个核心面积大约减少了25%。AMD目前尚未公布如何缩减的,但是从现有技术角度考虑,应该还是采用了高密度版本的工艺库、减少了大量为高频率设计的器件再加上较小的缓存,多管齐下达成了该目的。两者的基础频率一致,最高频率Zen 5可以运行到5.1GHz,Zen 5c则只有3.3GHz。

▲Zen 5微架构的前端优化内容

▲Zen 5相对Zen 4对比,改进可谓是方方面面。

具体到产品来看,AMD给出的示意图显示,Strix Point的L3缓存为16+8共24MB配置,4个Zen 5核心共享16MB的L3缓存,而8个Zen 5c核心则共享8MB的L3缓存。这样一来,对Zen 5c来说,由于L3缓存和最高频率更低,因此在实际使用中更侧重兼顾能效,整体吞吐能力、ISA支持等又完全一致。

因此,Zen 5c应该更适合后台应用以及多线程情况下提高整体吞吐能力,提升能效的可扩展性。不过可以看出的是,由于Zen 5核心和Zen 5c核心分别属于两个不同的“区块”,因此数据在Zen 5c和Zen 5之间转移的时候,延迟应该会增大,这意味着需要在任务调度方面做好优化。对4个Zen 5核心来说,L3缓存保持了和桌面处理器一样的每核心平均4MB,再加上4个Zen 5核心的频率也高达5.1GHz,这意味着大量高性能需求的任务在4个Zen 5核心上会得到极为出色的性能呈现,尤其是游戏等缓存敏感型应用,相对于桌面处理器差距更小。

▲Zen 5c相比Zen 5,更看重面积和功耗的改进。

AMD给出了Zen 5和Zen 5c的对比信息,我们总结一下。首先,Zen 5的设计目标是最高频率、最高性能,因此可以运行在高频率上,也拥有最大的单核心4MB L3缓存,或者4个核心共享16MB缓存。其次,Zen 5c在可扩展性能上进行了优化,主要是增加核心数量,因此在频率方面表现较低,电源效率更高,同时也降低了L3容量,毕竟缓存是最耗费晶体管的部件之一。

▲Zen 5的FP单元方面进行了大幅度改进,支持AVX-512。

最后,对整体软件调度来说,与英特尔的异构核心设计不同,由于Zen 5和Zen 5c是同构核心,不存在ISA方面的差异,因此软件调度上相对更简单,不存在类似于“大核心支持AVX-512,小核心不支持”这样的瓶颈,而且Zen 5c还支持SMT超线程技术。AMD可以在性能和效率方面进行调节,使得最终呈现的效果更为稳定和可靠。不过针对不同核心的任务调度而言,是否有更大延迟以及是否需要进一步优化,还需要一段时间才能了解更多细节。

Zen 5c面积更小,在能效比上表现比Zen 5更好,但AMD暂时未提供更多的细节,因此我们不知道在同频率下,Zen 5c相对于Zen 5会有多少能效比的提升。不过AMD在推出Zen 4c的时候,曾经做过和Zen 4的能效对比情况,可以看出,当时在20W以下,Zen 4c的能效比已经超过了Zen 4,性能还更高。相同设计思路的Zen 5c表现应该也是类似,期待更多细节。

▲Zen 5带来了一些新的ISA指令集支持,主要是AI计算相关内容。

另外,在ISA方面,Zen 5相对前代产品还加入了包括MOVDIRI/MOVD64B、VNNI/VEX、VP2INTERSECT、PREFETCH之类的新指令集,其中部分是针对AVX-512设立的,其余主要用于AI计算等。另外还有一些异构拓扑和PMC虚拟化方面的新指令。

RDNA 3.5:最强集显更进一步

除了CPU微架构,AMD在Strix Point上还启用了全新的RDNA 3.5架构的GPU。有关这个架构,AMD也给出了一些信息。在整体规模上,Strix Point中集成的GPU模块更大,包含1个模块、有8个WGP,总计1024个流处理器,32个AI加速单元和16个光线追踪加速单元。渲染后端方面,RDNA 3.5目前增加至4个,拥有16个ROP单元。

▲RDNA 3.5在架构改进上的三大目标

Strix Point的GPU规模相比前代产品大幅度增加,性能也自然大幅度提升。在2.9GHz频率下,Strix Point的GPU能够带来11 TFLOPS的FP32吞吐能力,比前代产品Phoenix的算力提高了大约30%。

▲AMD针对RDNA 3.5的架构改进的解释

在架构改进方面,RDNA 3.5带来了纹理子系统的更新,拥有包括纹理采样率翻倍、点采样加速等功能,这意味着整体画面的纹理质量会有更好的呈现。着色器子系统带来了2倍的差值速率和数值比较速率,这使得高质量画面的细节呈现更为出色。此外,新架构还在着色器SALU和VGPR方面进行了一些改进。光栅化方面,则带来了批量处理功能,提高了硬件效率。在内存管理方面,RDNA 3.5目前支持更优秀的内存压缩技术,尤其是搭配LPDDR 5使用,能够带来性能的提升和更好的效率。

▲RDNA 3.5呈现出更好的能耗比

AMD给出了一些测试数据,比如在3DMark中,Strix Point相比上代产品在同为15W TDP的情况下,3DMark Time Spy成绩提升了32%,Night Raid成绩提升了19%,这已经相当令人满意了。

不过还是要提一句,如果将Strix Point配备在全功能或轻薄类型、不配置独立显卡的笔记本电脑中,其集成GPU性能在入门独显水准之上,满足日常3D功能即可,性能和续航兼顾是其诉求点,不可能要求一个低功耗设备拥有高性能独显的性能和规模。因此如果是游戏玩家的话,可能需要考虑AMD之后推出的Zen 5架构的高性能移动芯片。

XDNA 2架构:规模更大、能效更出色

AMD在移动SoC上一个显著的特点就是加入了NPU这样专为AI计算设计的核心。从第一代锐龙7040系列开始到第二代锐龙8040系列,再到现在的Strix Point也就是锐龙AI 300系列处理器,已经发展到第三代AMD AI PC处理器产品了。

▲XDNA架构整体设计比较成熟了,AMD在多款产品上都有应用。

Strix Point的NPU单元架构上进行了更新,之前的产品采用的是XDNA架构,现在全新的NPU采用XDNA 2架构,新的架构规模更大、能效比更高,在移动设备中的使用体验和性能表现更令人期待。

▲XDNA 2相比XNDA在内部架构上进行了调整,规模也更大了。

AMD给出了一些XDNA 2在架构上的变化。首先是整体架构针对生成式AI的支持更为全面和丰富,AMD也在软件优化上做了一些工作,包括Stable Diffusion等模型,新的处理器都予以了优化和支持。其次,新的NPU算力大增,其AI算力在INT 8下最高可达55 TOPS。

▲XDNA 2是首个在PC平台上支持块浮点技术的NPU架构。

XDNA 2还带来了“块浮点(Block FP16)”的支持,这个技术是在耗费8位计算的算力和获取相应速率的情况下,计算结果接近16位计算,这将会使得AI计算在速率和精度上不用再二选一,而是能够“两个都要”。值得一提的是,AMD是首个为NPU加入块浮点技术的厂商。

▲除了性能外,能耗比方面XDNA 2也有显著提升。

第三是相比上代产品,XDNA 2拥有2倍的并发空间流以及1.6倍的片上缓存。这里的并发空间流是指AMD XDNA的计算方式,并非传统2D的计算方式,AMD称其为空间流。实际从计算单元角度来看的话,XDNA 2对应的NPU在AI引擎方面拥有32个单元,比上代多了12个。每个AI引擎中的MAC数量是上代产品的2倍,这也是XDNA 2拥有2倍并发空间流的数据来源。缓存方面,更多的片上缓存意味着整体计算效率更高。

▲在数据格式支持方面,XDNA 2也非常强大。

最后,XDNA 2架构增加了对非线性函数的支持,增加了稀疏计算相关的功能。在电源方面,XDNA 2针对每列计算单元都实现了电源门控,再加上工艺制程以及设计的改进,总计带来了2倍的性能功耗比提升。综合以上,使其成为目前AI算力最强的NPU。

新的架构、新的探索:AMD在移动设备上的一次跃进

本文对AMD锐龙AI 300系列处理器的型号命名、技术和架构方面的改进进行了解读。至于性能表现,由于本款处理器已经正式发布,并且我们也已经对其进行了测试,因此本文我们就不针对AMD给出的性能数据一一解读了。如果希望了解处理器性能的读者,建议查看我们的评测文章。

总的来说,锐龙AI 300系列处理器是AMD近几年来在移动处理器上最重磅的更新和最大的改进。在锐龙AI 300系列处理器上,我们看到AMD从宏观架构层面到CPU微架构、GPU微架构、NPU微架构方面都进行了大刀阔斧的革新,包括GPU、NPU在内,有的改进甚至首次出现在移动平台。

▲AMD锐龙AI 300系列处理器增强了AMD在AI PC方面相比竞争对手的优势。

CPU微架构方面,Zen 5和Zen 5c的混合核心搭配也是首次在全系产品中出现,上代产品中我们只在中端的锐龙5系列和入门的锐龙3系列产品中看到了Zen 4和Zen4c核心的搭配。这些升级改进带来的结果也非常明显,就是能效比飙升以及对时下火热的AI的迅速跟进与支持。

目前搭载锐龙AI 300系列处理器的笔记本电脑已经上市,从市场定位来看,锐龙AI 300系列处理器正在抢先攻占高端的轻薄本和全能本市场,这也正是英特尔Lunar Lake所针对的市场,近日已经官宣9月发布。因此,我们很快会看到AMD和英特尔在市场掀起新的竞争。作为消费者,我们又可以在激烈的竞争中挑挑选选,得到更多实惠,值得期待。

0 阅读:11

微型计算机

简介:以“MC评测室”为基础提供各种科技和IT产品评测资讯