埃隆·马斯克通过Twitter/X宣布,人工智能初创公司xAI启动了位于田纳西州孟菲斯的所谓“全球最强大AI训练集群”,该集群由100000个Nvidia H100 GPU组成。
xAI的孟菲斯超级集群已经开始运行,这引发了关于为什么xAI没有等待更强大的或下一代GPU的问题。马斯克在推文中解释说,新的超级集群将“按每个指标训练世界上最强大的AI”。据推测,xAI的超级计算机集群将被用于Grok 3的训练。马斯克表示,改进后的LLM应该在“今年12月”完成训练阶段。
关于修建xAI数据中心的传言已经流传了好几个月,马斯克曾在5月份声称他将亲自确保这一项目。上个月,在宣布戴尔(Dell)和超微(Super Micro)将为xAI提供服务器机架后不久,马斯克表示,下一个版本的Grok将在10万个英伟达H100芯片上进行训练。随着超级集群的启动,传言一一兑现。
将孟菲斯超级集群的计算资源与最新的Top500列表进行比较,新的xAI孟菲斯超级集群在GPU性能方面明显超越了其他任何系统。例如,世界上最强大的超级计算机Frontier(37888个AMD GPU)、Aurora(60000个Intel GPU)和Microsoft Eagle(14400个Nvidia H100 GPU)似乎都被xAI的机器所超越。
xAI的投资规模巨大。根据Benzinga的一份报告,每块Nvidia H100 GPU的成本估计在30000至40000 美元之间。考虑到xAI使用了100000台 Nvidia H100,马斯克的AI初创公司似乎为该项目花费了约30亿至40亿美元。
值得一提的是,马斯克旗下的特斯拉已部署了约35000台Nvidia H100用于训练自动驾驶汽车,并使用其定制的Dojo芯片开发超级计算机。