AMD近日推出了外界期待已久的数据中心APU(加速处理器)Instinct MI300,其旨在帮助数据中心处理人工智能相关数据流量,并在这一快速增长的市场上挑战英伟达的垄断地位。
AMD Instinct MI300系列将包括一个GPU(图形处理器)MI300X,可以加速ChatGPT等聊天机器人所使用的生成式AI技术的处理。
这波生成式AI浪潮让芯片成为了最大的赢家。眼看着英伟达GPU被AI厂商争相抢购,AMD不甘落于人后,其发布的MI300X是AMD真正为生成式AI设计的产品,与英伟达的H100芯片相比,MI300X的HBM密度是其2.4倍,带宽是其1.6倍。这意味着MI300X 可以容纳更大的AI模型,它的发布极大增加了AMD的AI竞争力。
MI300X芯片及其CDNA架构专为大型语言模型和其他尖端AI模型设计。MI300X内部没有集成CPU内核,而是采用了8个GPU 芯粒(chiplet)加4个IO内存芯粒的设计,12个5nm芯粒封装在一起,使其集成的晶体管数量达到了1530亿,多于英伟达H100的800亿晶体管。此外,MI300X拥有192 GB的HBM3 DRAM内存和每秒5.2TB的内存带宽。随着AI模型变得越来越大,需要多个GPU来运行最新的大型语言模型,单个MI300X可以运行一个800亿参数的模型,这是首次在单个GPU上运行这么大的模型。另外,AMD将提供Infinity架构,将8个MI300X加速器组合在一个系统中。英伟达和谷歌已经开发出类似系统,将8个或更多GPU组合起来用于AI应用。
盘点国内的AI芯片市场格局目前在AI技术进展最为前沿的北美数据中心AI芯片市场,英伟达市场份额占比超过80%,且在训练、推理环节均保持持续领先;在数据中心AI加速市场,2022年英伟达市场份额达82%,AWS和Xilinx分别占比8%、4%,AMD、Intel、Google均占比2%。
国内AI芯片以寒武纪思元系列、华为昇腾系列等为代表,寒武纪和华为昇腾部分AI芯片产品性能已达到较高水平,有望加速实现国产替代,迎来高速发展期。
中国本土AI芯片厂商:
寒武纪思元AI思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,基于7nm制程工艺,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,思元370实测性能表现更为优秀。思元370也是国内第一款公开发布支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。搭载MLU-Link™多芯互联技术,在分布式训练或推理任务中为多颗思元370芯片提供高效协同能力。全新升级的寒武纪基础软件平台,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本
思元290芯片,作为寒武纪首颗AI训练芯片,采用创新性的MLUv02扩展架构,使用7nm先进制程工艺制造,在一颗芯片上集成了高达460亿的晶体管。芯片具备多项关键性技术创新, MLU-Link™多芯互联技术,提供高带宽多链接的互连解决方案;HBM2内存提供AI训练中所需的高内存带宽;vMLU帮助客户实现云端虚拟化及容器级的资源隔离。多种全新技术帮助AI计算应对性能、效率、扩展性、可靠性等多样化的挑战。
寒武纪基础软件平台是寒武纪专门针对其云、边、端的智能处理器产品打造的软件开发平台。其采用云边端一体、训推一体架构,可同时支持寒武纪云、边、端的全系列产品。
寒武纪终端IP、边缘端芯片、云端芯片共享同样的软件接口和完备生态,可以方便地进行智能应用的开发,迁移和调优。
华为昇腾AI华为昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(Compute Architecture for Neural Networks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。
总结我们仍处于人工智能生命周期的非常早期的阶段,AI浪潮下,云计算、智能汽车、智能机器人等人工智能产业快速发展,市场对AI芯片的需求不断增加,AI芯片市场规模将持续增长。预计到2027年,数据中心人工智能加速器的总潜在市场价值将增长五倍,达到1500亿美元以上。随着ChatGPT新一轮技术浪潮开始席卷全球,正当我们开始觉得英伟达才是最终赢家的时候,AMD终于出手了。希望这波竞争能让未来的大模型训练成本更低一些,作为最终用户,自然更希望ChatGPT们能再便宜点啦。更希望中国的AI生态队伍能够迎头赶上,实现超越!
对此,您有什么看法见解?欢迎在评论区留言探讨和分享。