马斯克启动“全球最强AI集群”:集成10万个英伟达H100GPU!

芯片界小小学生 2024-07-24 03:43:18

7月23日消息,特斯拉、“X”、xAI CEO 埃隆·马斯克 (Elon Musk)近日在“X”平台上宣布,xAI已经启动了“世界上最强大的 AI 集群”,以在今年12 月之前创建“世界上最强大的AI”——该系统在单个结构上将集成10万个英伟达(Nvidia)H100 GPU。

马斯克表示,当地时间凌晨4:20左右开始,在xAI团队、X团队、Nvidia和支持公司的努力下,其孟菲斯超级计算工厂“Supercluster”开始正常运行——它在一个RDMA结构上有10万个液冷H100,是世界上最强大的人工智能训练集群!

今年 5 月,马斯克曾表示在 2025 年秋季之前开设超级计算工厂,当时,马斯克匆匆忙忙地开始了Supercluster的工作,需要购买英伟达“Hopper”H100 GPU。这似乎表明,当时这位科技大亨没有耐心等待 H200 芯片推出,更不用说即将推出的基于 Blackwell 的 B100 和 B200 GPU。尽管预计较新的 Nvidia Blackwell 数据中心 GPU 将在 2024 年底之前发货。

那么,根据最新的消息来看,原本计划在2025年秋季开业的超级计算工厂,现在有望提前近一年的时间实现了。但目前下结论还为时尚早。但今年早些时候,路透社和The Information交谈的消息人士似乎更有可能在项目时间上说错了时间节点。此外,随着 xAI Supercluster的启动和运行,关于为什么 xAI 没有等待更强大或下一代 英伟达GPU 的问题也得到了解答。

Supermicro 为 xAI 提供了大部分硬件,该公司的首席执行官 Charles Liang 也对马斯克的帖子发表了评论称,“与马斯克的孟菲斯团队合作真是太棒了!为了实现目标,我们的执行必须尽可能完美、尽可能快、尽可能高效、尽可能环保——大量的艰苦工作。”

在随后的推文中,马斯克解释说,新的Supercluster”将“从各个方面训练世界上最强大的人工智能”。从之前的意向声明来看,xAI 的 100,000 个 H100 GPU 安装功能现在将针对 Grok 3 模型进行训练。马斯克表示,改进后的LLM应该在“今年12月之前”完成训练阶段。

从规模上看,新的xAI的Supercluster在GPU算力上将会超越目前最强的超级计算机,比如Frontier(37,888个AMD GPU),Aurora(60,000个Intel GPU)和Microsoft Eagle(14,400个Nvidia H100 GPU)。

来源:芯智讯

0 阅读:0

芯片界小小学生

简介:感谢大家的关注