“AI 的周期比我五年前预期要快得多。我们的目标是成为人工智能领域的端到端领导者。”在Advancing AI 2024大会开场中,AMD董事会主席兼首席执行官苏姿丰博士这样表示。
在满足AI特别是大模型的应用进程中,需要大规模的算力支撑,而AMD 正在加快了 AI 路线图的步伐,每年都会推出新产品。如今已经拥有“业内最好的产品组合,可以解决端到端的人工智能问题”。
随后,苏姿丰博士正式发布第五代 AMD EPYC 服务器处理器(Zen 5)9005系列,以及下一代 AMD Instinct 加速器、网络和 AI PC等系列产品。与苏姿丰博士同时登台的还有微软、谷歌、甲骨文、Meta等合作伙伴,共同展示面向AI的解决方案。
Zen 5核心架构:多达192核心384线程
在产品更新升级方面,AMD一直坚持良好节奏。从现场AMD公布的数据来看,2018年,AMD 的 EPYC CPU 在服务器领域只占据2%的市场份额,如今,AMD在全球达到34%的市场份额,目前拥有超过950个云实例和超过350个OEM 平台。
这是市场对AMD的肯定,而今天亮相的第五代 EPYC CPU(9005系列),采用最新的3、4nm制造工艺,晶体管多达1500亿个,实现了更高的集成度以及更高的频率,继续肩负起AMD扩大服务器 CPU 领导地位,从而提供端到端 AI 领导平台的重任。
作为CPU应用Chiplet技术的先行者,AMD从代号Rome的第二代EPYC处理器(7002系列)开始,确立了把DDR内存控制器和PCIe控制器等I/O器件集中到一个单独的IOD(I/O Die)上,多个CPU核心及其Cache构成的CCD(Core Complex Die)环绕周围的布局。这样做的好处是核心与I/O解耦,IOD和CCD的制程可以分别演进,扩充CPU核心的数量也较为容易,通过增加CCD数量,或迭代更多核心数量的CCD,都可以获得CPU总核心数的上升。
譬如Zen 4和Zen 3都是每个CCD有8个核心共享32MB L3缓存,前者对应的服务器CPU代号Genoa即EPYC 9004系列,通过把CCD的数量从8个增加到12个(当然,离不开IOD的支持),总的核心数就从64个升至96个;Zen 4c单个CCD内的核心数量翻番到16个,共享32MB L3缓存,对应的服务器CPU代号Bergamo,CCD的数量又回到8个,共128个小核。
第五代EPYC(基于Zen 5)即9005系列,又回到1+12的架构,可以提供多达192个核心、384个线程。Zen 5有两种解决方案:Turin 的 4nm 版本配备多达 16 个“Zen 5”CCD,提供多达 128 个内核和 256 个线程,这被称为“Scale-Up”版本,而第二个版本是“Scale-Out”版本,它利用 3nm“Zen 5C”内核,配备多达 12 个 CCD,提供多达 192 个内核和 384 个线程。
EPYC Zen 5和EPYC Zen 5C两个版本都使用了相同的 SP5 插槽,在架构上完全一致,与现有的Zen4/Genoa 平台兼容,客户可以轻松的从之前的 Genoa 和 Bergamo “Zen 4”与“Zen 4C”版本直接升级。
在内存方面,Zen 5提供 12 通道内存解决方案,频率从DDR5-4800提高到 6400,支持 ECC,单路6TB 容量,仍可获得 128 个 PCIe 5.0/CXL 2.0 通道。
EPYC 9005全系列共有27款,名称中的“5”明确表明了Zen5 架构的存在,并且有两个版本可供选择:22款具有Zen5 经典核心的128 核版本和5款具有更密集的Zen5c的192核版本。
令人印象深刻的是,第五代 AMD EPYC产品线不仅增加了核心数量同时大幅提高了 L3 缓存密度。
EPYC Zen 5C:最多 192 个内核、384 MB L3 缓存(与 Zen 4C 相比,内核数/L3 缓存增加 50%)。比如旗舰产品EPYC 9965拥有192核心、384线程和 384 MB 的 L3 缓存。其基本频率为 2.25 GHz,加速时频率为 3.7 GHz。默认 TDP 为 500W,目前售价为 14,813 美元。EPYC Zen 5:最多 128 个内核、512 MB L3 缓存(与 Zen 4 相比内核数/L3 缓存增加 33%)。其旗舰产品 EPYC 9755, 128 核心、256 线程、512 MB L3 缓存、2.7 GHz 基本频率、4.1 GHz 加速频率和,500W TDP,售价为 12,984 美元。AMD 还提供了几种频率优化的变体,包括 64、48、32、24 和 16 核版本。最高端的是 EPYC 9575F,它提供 64 个内核、128 个线程、256 MB L3 缓存、400W TDP、频率为 3.3 GHz、加速时频率为 5.0 GHz。这款售价为 11,791 美元。当然要提下入门级 8 核 SKU EPYC 9015,配置了 125W TDP,基本时钟频率为 3.6 GHz,加速时钟频率为 4.1 GHz,并具有 64 MB L3 缓存。这款芯片的售价为 527 美元。性能全面跃升 能效继续提高
在大会上,苏姿丰博士表示,第五代 AMD EPYC是AMD迄今为止设计的性能最高、能效最高的核心。
与 Zen 4 相比,指令带宽增加了一倍,缓存和浮点单元之间的带宽增加了一倍,AI 性能也增加了一倍,同时具有完整的 AVX 512 吞吐量。其中,企业和云平台IPC提升高达17%,HPC和AI平台IPC提升高达37%。
AMD 不仅将其第五代 EPYC CPU 与第四代 EPYC 进行比较,同时还公布了在SPEC CPU 2017 吞吐量测试中创造的一项世界纪录,领先市场 2.7 倍,领先第四代 EPYC 近 60%。
从SPEC CPU 2017 INT 基础测试数据来看,使用 32 核的第五代 EPYC CPU 比竞争对手提高了 40%,比第四代 EPYC SKU 提高了 27%。AMD 强调,在虚拟化领域,客户可以相同的成本实现强劲的性能。
在工作负载性能方面, AMD EPYC 9965 192 核 CPU 的视频转码同样比竞争对手性能提高了 4 倍,开源数据库 (MySQL OLTP) 性能提高了 3.9 倍,图形渲染性能提高了 3 倍。
那么使用相同核心数的性能如何呢?AMD 于是展示了 64 核 EPYC 9575F 与 EPYC 9554 以及和竞争对手的比较。在一系列企业 HPC 工作负载(例如 Ansys LS-DYNA、Altair Radioss、Ansys Fluent 和 Altair AcuSolve)中,具有相同核心数的 Zen 5 部件的性能仍然领先高达 1.6 倍。
在密集性建模与模拟工作负载中,Opensource HPC 性能也有了很大的提升,其中 EPYC 9965x比第四代 EPYC“Genoa”CPU 的性能提高了 2 倍以上。
对于 AI 性能,主要来自 AVX-512功能,从AMD 公布的官方数据来看,可带来高达 3.8 倍的性能提升。更快的 SKU(例如 5 GHz EPYC 9575F)可将 GPU 编排任务的速度提高 28%。
能效:1:7的价值
第五代EPYC服务器的颠覆性还在于,性能带来的价值和能效提升。AMD直观给出一个例子,如果企业在5年前购买7台服务器,那么如今1台EPYC 9965 便可替代当时的这7台小服务器集群,可降低企业的能耗、空间、运维等成本,提升运营效率。
在本次大会上,AMD公布了一组数据:“AMD EPYC平台可将功耗需求降低高达 68%,服务器空间减少高达 87%,并在 3 年内降低 TCO 67%。额外的节省空间可用于仅使用 416 个 GPU 将数据中心的 AI 和计算能力提高超过 110 万个 AI TOP,而新的 640 个 CPU 机架可将计算性能提高 2.5 倍。”
无疑,处在如今AI超级周期中,没有一家公司可以解决客户的所有计算问题,AMD不仅坚决执行五代EPYC的既定路线,同时还在加快AI步伐,重视性能、技术创新,提升能源效率,目前戴尔、HPE、联想、超微、华硕、思科、技嘉等众多合作伙伴在大会上现场展示,均推出基于第五代EPYC架构的服务器产品,谷歌、Meta等公司也展示了与AMD的联合的解决方案。对于AMD来说,未来确实振奋,正不断挑战同行在服务器领域的主导地位。