国产智算争相开启“万卡”元年，十万卡还远吗？

随着AI技术的飞速发展，特别是AI大模型对算力的需求快速增长，算力集群的规模正以前所未有的速度扩张，从千卡到万卡，再到未来的十万卡、百万卡，这一趋势已成为智算产业发展的必然。

国产万卡集群建设，元年开启

AI大模型的热潮持续蔓延，智算基础设施需求水涨船高。

小米搭建GPU万卡集群的消息引起广泛关注，其实也并不意外。当前阶段，算力集群扩张是AI技术进步的必然结果。我国智算建设仍处于窗口期，满足AI训练需求的万卡/超万卡集群仍较为短缺，特别是核心厂商的大规模/超大规模智算中心仍是稀缺资源，将是带动行业新一轮成长的重要力量。

截至今年6月，我国已建和在建的智算中心超250个。过去20年间，我国智能算力需求增长超过百亿倍，这一趋势使得算力中心正朝着万卡规模迈进。

当前，火热的大模型技术和面向行业场景化的创新AI研发，都离不开算力资源的有力支撑。特别是在训练端，大模型仍延续了Scaling Law的主流技术路线：通过算力、算法、数据的深度融合与经验积累，实现模型性能的飞跃。在Scaling Law方向下，需要单点规模够大且通用的算力才能快速跟上技术演进。

万卡集群就成为了破题方法之一。这种集群将充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台超级计算机，进行千亿级甚至万亿级参数规模的大模型训练。

可以看到产业多方都在万卡、甚至超万卡集群领域进行广泛布局，涵盖从芯片研发到大规模AI模型训练的多个方面，主要以四类企业为代表，包括：AI芯片企业、大型AI研发企业、电信运营商、互联网企业。

压力给到了云厂商

在投入踊跃的企业中，行业龙头典型的算力需求在1000卡~5000卡规模，而大模型创企的需求则在万卡水平。这些企业在训练和推理过程中，遇到了各种问题，他们对智算基础设施提出了四个主要的诉求——高速网络互联、集群稳定性、资源利用率、大模型训练和推理工具等。而这些需求与CPU云时代截然不同。

比如有人把GPU比作赛车，要让赛车性能发挥到极致，就要给它建立专业赛道。在搭建GPU集群时，企业要求云厂商提供一个更好的网络硬件互联架构。

稳定性是一件要命的事。CPU的功耗只有两三百瓦，GPU已经1500瓦了。黄仁勋因此被戏称为“核弹狂魔”。功耗高代表着集成度高，这就容易出故障。“我们算过，一个千卡集群，按照现有市场价格，一天的租金是二三十万元。平台稳定性不好了，我们的损失就很大。”一家车企人士说。而视频大模型企业生数科技人士告诉数智前线，他们核心的诉求是“稳定性”。平台稳定，确保他们在视频生成的核心技术“高一致性”上实现突破。

资源利用率也是企业最关注的问题，因为GPU太贵了，利用率左右着ROI。

到了大模型时代，基础设施转向了极致高密、极致互联与极致规模。国外今年已从十万卡向百万卡集群迈进。用不了太长时间，可能一个数据中心，就会“缩到”一个机柜里或一个节点上。

由于过去十多年在整体AI上的投入，百度从2009年开始，在中国互联网企业中第一家开始使用GPU做集群加速，2021年已建成三四千卡单一任务的GPU集群，并逐步形成了有丰富技术栈的百度百舸异构计算平台。

免责声明：

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证，并在此声明不承担信息可能产生的任何责任、任何后果。

2、本号非商业、非营利性，转载的内容并不代表赞同其观点和对其真实性负责，也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误，负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网，所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品，请与我们取得联系，我们会及时修改或删除。