AMDYES!英伟达要丢大客户了

涵涵说 2024-12-25 14:28:31

据Omdia数据,作为2024年AI领域的王者,Nvidia的12个大客户购买了超过200万颗Hopper GPU芯片,采购量翻了两番。但Nvidia的市场份额正被AMD抢夺,尤其是其推出的Instinct MI300系列GPU之后,仅微软、Meta、Oracle与TensorWave四家巨头就采购了超过32.7万颗MI300X芯片。

据Omdia估算,微软在2024年购买了约58.1万块GPU,是全球所有云或超大规模客户中购买量最大的。而这之中,有六分之一的GPU来自AMD。

AMD正在抢走Nvidia的大客户

同时,根据Omdia的调查结果,在Meta数据中心内,有43%的GPU均来自AMD,数量大约为17.3万块,而Nvidia GPU的数量约为22.4万块。与此同时,在Oracle数据中内,其总计有16.3万块GPU,其中23%来自AMD。

尽管AMD在微软和Meta等大客户数据中心内的份额不断增长,但在更大的GPU市场,其市场份额仍难以对Nvidia构成威胁。

Omdia追踪了四大GPU采购企业(微软、Meta、Oracle和GPU云巨头TensorWave)的MI300采购量,总计约为32.7万颗。

但值得注意的是,AMD的MI300系列GPU上市才一年,其销量让人侧目。因为在此之前,AMD GPU主要用于传统的HPC领域,比如美国橡树岭国家实验室(ORNL)的Frontier超级计算机。

为什么选择AMD?

尽管很多业内人士将主要原因归结为Nvidia GPU供应链短缺。但从性能数据来看,AMD的MI300X系列GPU还是提供了许多优势,比如AMD声称其浮点性能比Nvidia H100高1.3倍,内存带宽高60%,容量高2.4倍。尤其是内存带宽和容量的提升,将给AI性能提升带来立竿见影的效果,反倒是FLOPS对性能的影响并不那么明显。

一般来说,当今大多数AI模型都是以FP16精度进行训练的,这意味着,要运行这些模型,每10亿个参数需要大约2GB的vRAM。如果每张GPU配备192GB的HBM3内存,单台服务器的HBM3内存容量可以达到1.5TB。这对企业而言,最直接的优势就是,很多大模型(比如Llama)都可以完整运行在单个节点上。而另一方面,H100节点缺乏以全精度运行模型所需的内存,当然,后续配备141GB HBM3内存的H200同样也可以。

除了内存容量之外,MI300X还拥有5.3TBps的内存带宽,而H100为3.3TBps,H200为4.8TBps,这就是说,从纸面数据来看,显然MI300X在理论上应该比Nvidia Hopper GPU更适合支撑大模型训练场景。

尽管Nvidia的Blackwell即将上市,在性能和存储带宽方面再次升级。但AMD的新款MI325X配备了256GB的高带宽内存,在容量方面依然占据优势;而AMD明年还将上市MI355X,其内存容量将达到288GB。在内存容量和带宽上高于Nvidia,这似乎成为了AMD GPU的“传统”。

这或许就是微软和Meta选择AMD GPU的原因,毕竟这类互联网巨头并不缺乏性能优化方面的专家,而且这两大巨头都部署着数千亿甚至数万亿个参数的大型前沿AI模型。

据Omdia信息,AI巨头们的支持让AMD的业绩蒸蒸日上,截止到第三季度,AMD预计其Instinct产线将给AMD的2024财年贡献超过50亿美元的收入。而在即将到来的2025年,AMD将获得更多份额。Omdia评论认为:“AMD执行力强,且与客户沟通良好,善于坦诚地评论其GPU的优势和不足。”

除了AMD,Nvidia的对手还有定制芯片

由于持续的AI热潮,越来越多的AI巨头们正在部署其定制的AI芯片,包括Meta、AWS、Google与微软等。

据Omdia估算,Meta定制的MTIA加速器在今年的出货量将达到150万颗,AWS在今年则订购了90万颗Inferentia芯片。这些芯片或许当前并不会对Nvidia带来较明显的影响,因为这些芯片大多用以支撑较为传统的机器学习任务,比如推荐系统。

Inferentia和MTIA在设计时可能并没有考虑支撑大模型,但Google的TPU肯定是有考虑大模型需求的,比如用以支撑其专有的Gemini和开发的Gemma模型。据Omdia透露,Google今年采购了约100万颗TPU v5e与48万颗TPU v5p芯片。

除了Inferentia,AWS还自行设计了Trainium芯片,尽管名字看起来像是针对训练,但实际上针对训练和推理负载都进行重新调整。Omdia预计,AWS今年将订购约36.6万颗Trainium芯片。这与其Rainier项目计划相一致,该项目将在2025年为Anthropic提供“数十万”个Trainium2芯片。

微软也公布了其MAIA芯片,与AWS Trainium芯片类似,都能支持训练和推理场景。微软作为OpenAI的主要硬件合作伙伴和AI算力供应商,Omdia推测微软大约采购了19.8万颗MAIA芯片。

Nvidia能保持它的市场份额吗?

在过去两年中,Nvidia的巨额营收增长让其成为全世界最亮眼的“仔”,但Omdia认为,随着AMD、Intel和云供应商推出替代硬件和服务,Nvidia的市场份额可能会不断遭到蚕食。因为科技行业已经有很多先例(比如IBM、Intel),一旦市场份额达到90%以上,那就不太可能继续增长,因为企业用户会立即寻找其他替代方案。

Omdia认为,Nvidia可能不会继续寻求市场份额的扩大,而是专注于通过技术来进一步扩大整个潜在的市场。比如Nvidia推出的推理微服务(NIM)就是试水,NIM是一种容器化模型,其作用类似于构建复杂AI系统中的一个小组件。

Omdia评论认为:“这是乔布斯的策略。苹果智能手机的成功应归功于其应用商店,因为其让技术更容易使用。AI也是如此,建立一个应用商店,用户就会下载并使用它。”

话虽如此,但Nvidia显然更擅长硬件。现在很多Nvidia的大客户已宣布将基于Blackwell GPU打造超大规模的AI集群,从性能上看,Nvidia GPU依然远远领先于AMD和Intel的任何产品。

与此同时,Nvidia也在加速其产品路线图,通过每年都推出新芯片的节奏,来保持其领先地位。尽管Nvidia将面临越发激烈的市场竞争,但短期内依然“王者无敌”。

0 阅读:599
涵涵说

涵涵说

您的点赞,是对我最大的支持!