近日,马斯克分享了一段“Cortex” AI超级集群的视频,这个巨大的新AI训练超级集群正在特斯拉位于奥斯汀的总部建造,以解决现实世界的AI问题。特斯拉“Giga Texas”工厂的最新扩建将包含70,000台AI服务器,并在启动时需要130兆瓦(MW)的冷却和电力,到2026年将扩展到500兆瓦。
马斯克的Cortex超级集群视频展示了正在进行中的大量服务器机架的组装。从模糊的视频中,我们可以看到机架似乎以每行16个计算机架的阵列排列,大约有4行非GPU机架分隔这些行。每个计算机机架容纳8台服务器。在20秒的视频中可以看到大约16-20行服务器机架,因此粗略估计可以看到大约2,000台GPU服务器,这还不到预计全面部署的3%。
马斯克在特斯拉7月的财报电话会议上分享说,Cortex超级集群将是特斯拉迄今为止最大的训练集群,包含“50,000个Nvidia H100s,加上20,000台特斯拉的硬件”。这个数字比马斯克之前分享的要小,他在6月的推文中估计Cortex将容纳50,000个特斯拉的Dojo AI硬件单元。
Cortex训练集群正在建造中,以“解决现实世界的AI问题”,这意味着为特斯拉训练全自动驾驶(FSD)自动驾驶系统以及为Optimus机器人训练AI。
Cortex加入了埃隆·马斯克正在开发的超级计算机阵容。到目前为止,马斯克的第一个数据中心是已经投入运营的孟菲斯超级集群,由xAI拥有,由100,000个Nvidia H100s提供动力。孟菲斯的所有100,000台服务器都通过单一的RDMA(远程直接内存访问)连接。马斯克还宣布了在纽约布法罗投资5亿美元建设Dojo超级计算机的计划,这是另一个特斯拉运营的项目。
孟菲斯超级集群还预计将其H100基础升级到300,000个B200 GPU,但由于Blackwell的生产延迟,这个庞大的订单被推迟了。