在数字化时代,算力已成为企业竞争力的关键。算力集群建设不仅关乎数据处理能力的提升,更是企业智能化转型的重要基石。
全球最大AI超算内部首次曝光两个月前,马斯克才刚刚自曝了xAI的Colossus超算,称其是世界上最强大的AI训练系统。
最近,马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡!这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并由英伟达Spectrum-X以太网提供网络传输支持。
目前,Colossus的第一阶段建设已完成,集群全面上线,但这并不是终点。它将很快迎来升级,GPU容量将翻倍,新增5万块H100 GPU和5万块下一代H200 GPU。
Colossus正在用于训练xAI的Grok,并为X Premium订阅用户提供聊天机器人功能。
在训练超大规模的Grok时,Colossus展现了前所未有的网络性能。在网络结构的所有层级中,系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。
通过Spectrum-X拥塞控制,它保持了95%的数据吞吐量。这种性能水平无法通过标准以太网实现,标准以太网在传输中会产生数千次流量冲突,数据吞吐量仅能达到60%。
由于保密协议的限制,这台超级计算机的一些细节并没有透露。不过,像Supermicro GPU服务器等关键部件的介绍在视频中都有所涉及。
10万块液冷H100,19天完成搭建值得注意的是,这个全球最大的超算集群,大就大在拥有10万块H100,还是液冷的那种。
10万块H100是什么概念呢?价格上来看,H100 GPU作为AI的关键组件、硅谷的热门商品,据估计每块成本在3万到4万美元之间,10万块H100就是一笔40亿的大单。
而在全美TOP 5的高校机器学习博士曾发帖说,实验室H100数量为0,要用GPU得靠抢。斯坦福的自然语言处理小组只有64块A100 GPU。而马斯克一出手就是10万块,这个数字令评论区垂涎欲滴。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。