当地时间10月9日,处理器大厂AMD 在美国旧金山举行的 Advancing AI 活动期间,正式发布了最新的 Instinct MI325X AI GPU 加速器,该加速器配备 256 GB HBM3e 内存,而明年的 MI355X 则将配备 288 GB HBM内存。
在介绍MI325X之前,AMD介绍了整个 Instinct 平台的成绩,该平台已获得世界顶级 AI 公司的支持,并被 Meta、OpenAI 和 Microsoft 等一些头部品牌厂商采用。
据称 AMD 的 MI300X 在一系列特定于 AI 的工作负载中比 NVIDIA H100 的性能提高了 30%。AMD 在其 ROCm 套件中增加的工作有助于从旗舰加速器中获得更多性能,但现在是时候构建具有相同强大软件支持的更好硬件了。
AMD表示,其致力于性能领先、轻松迁移、开放式生态系统和以客户为中心的产品组合,这为领先的 OEM 和云合作伙伴提供了大力支持。因此,随着行业中的 AI 需求增长到无与伦比的高度,AMD加快了其下一代解决方案的推出。
AMD MI325X:256 GB HBM3e和CDNA 3架构,1530 亿个晶体管
全新的MI325X加速器建立在与 MI300X 相同的基本设计和架构之上,使用了 CDNA 3 GPU 架构,MI325X 可以看作是中期升级,提供 256 GB 的 HBM3e 内存,基于 16-Hi 堆栈制成,内存带宽高达 6 TB/s,FP8性能达2.6 PFLOP,FP16 性能为 1.3 PFLOP。所有这些都封装在一个芯片中,总共拥有1530 亿个晶体管。
AMD 预计 Instinct MI325X AI GPU 将于 2024 年第四季度开始首批生产,并从 2025 年第一季度开始通过领先的合作伙伴提供相应的服务器解决方案。
全新的基于MI325X的AI Instinct 服务器将具有多达 8 个 MI325X 配置,具有高达 2 TB 的 HBM3e 内存、896 GB/s 的无限结构带宽、48 TB/s 的内存带宽、20.8 PFLOPs 的 FP8 和 10.4 PFLOPs 的 FP16 性能。每个 GPU 也配置为 1000W,这比 MI300X 的 750-700W 配置有了很大的提升。
AMD 声称 Instinct MI325X AI GPU 加速器在 Mixtral 8x7B 中应该比 NVIDIA H200 快 40%,在 Mistral 7B 中快 30%,在 Meta Llama 3.1 70B LLM 中快 20%。
与 Llama 3.1 405B 中的 H200 HGX AI 平台相比,8x MI325X 平台的性能也将提高 40%,在 70B 推理测试中的性能提高 20%。在 AI 训练方面,8x MI325X平台将提供与 8x H200 平台相似或 10% 的性能提升。
AMD MI355X:3nm制程,配备288 GB HBM3e和CDNA 4架构
明年,AMD 还计划推出全新的 Instinct MI355X GPU 加速器,该加速器将针对 AI 工作负载,该加速器将使用 3nm 工艺节点构建。GPU 将采用 CDNA 4 架构。在规格方面,内存将升级到更高的容量,最高可达 288 GB HBM3e,同时支持 FP4/FP6 数据类型。
AMD 表示,CDNA 4 架构的性能比 CDNA 3 高出 35 倍,AI 计算增加了 7 倍,内存容量/带宽增加了 50%,并且还配备了最新的网络效率进步。
在性能方面,AMD Instinct MI355X AI GPU 将提供高达 2.3 PFLOP 的 FP16 性能,比 MI325X 高 80%,而 FP8 数据也比 MI325X 高 80%,达到 4.6 PFLOPS。新的 FP6 和 FP4 计算性能额定为 9.2 PFLOPS。
MI355X 的内存容量和内存带宽将增加 50%,速度比当前一代 MI300X 高出 8 TB/s。
首款采用八个MI355X GPU的平台将于2025年下半年上市,并提供高达2.3 TB的HBM3E内存容量和64 TB/s带宽、18.5 PFLOPs的FP16、37 PFLOPs的FP8和74 PFLOPs的FP6/FP4计算。
ROCm 6.2 继续为 Instinct 提升 AI 性能
回到软件方面,AMD 宣布推出其最新的 ROCm 6.2 生态系统,该生态系统在推理中的一系列 AI 工作负载中实现了 2.4 倍和 2.8 倍的平均性能提升,训练性能平均提高了 2.4 倍。
最后,AMD 仍在确认其 Instinct MI400,该芯片于 2026 年作为“CDNA Next”部分发布,但没有使用最近披露的 UDNA 架构名称。也许现在使用 UDNA 命名还为时过早。
话虽如此,AMD 似乎将通过未来的 Instinct 产品全力以赴,与 NVIDIA 等公司展开激烈竞争,并与一直在努力赶上其他公司的英特尔展开竞争。
编译:芯智讯-浪客剑 来源:wccftech
现在芯片设计已经没太多新意了,尤其这种专用芯片,都是模块化的。说白了就是堆工艺、堆料。
下了几个ai应用都提示要nv的卡,什么原因?
这个没什么大不了的下个世纪我们也能造[得瑟]
金灿荣:这些都是低端技术,华为根本没有兴趣参与!
中国队雄起