破解“算力荒”难题，万卡智算中心国产化迎来新春

2023年以来，大模型及生成式AI的大规模爆发，快速带动了全球对智算的需求。国际上，包括Meta、微软&OpenAI、xAI等多家AI巨头陆续宣布或者完成10万卡集群。智算中心已从千卡、万卡，迈入十万卡大关。

什么是万卡集群

万卡集群，是指由超过一万张加速卡（如GPU、TPU或其他专用AI加速芯片）组成的高性能计算系统，用以加速人工智能模型的训练和推理过程。

至于为什么需要一万张加速卡？

众所周知，大模型竞赛的本质是算力竞赛。比如这里有一个超大土堆，放一个工人和放一万个工人，在效率上肯定会有质的飞跃。

以OpenAI训练GPT模型为例，GPT-4需要使用2.5万张英伟达A100 GPU，并行训练100天左右的时间，在此期间要处理13万亿个token，并且涉及大约1.76万亿个参数。在不久的将来，开发大模型所需的算力将实现指数级的增长，对于即将亮相的GPT-5，预计该模型的训练需要部署20万~30万个H100 GPU，耗时130~200 天。

如今OpenAI发布ChatGPT已有两年的时间，从建设进度上看，海外头部厂商在2022年、2023年已经完成万卡集群搭建。比如2023年5月，谷歌推出的AI超级计算机A3，搭载了约26000块英伟达H100 GPU；2022年，META宣布了一个由1.6万块英伟达A100 GPU组成的集群。

到了2024年初，META进一步扩大规模，建成了两个各含24576块GPU的集群，并设定了宏伟目标：到2024年底，构建一个包含35万块英伟达H100 GPU的庞大基础设施。亚马逊Amazon EC2 Ultra集群采用了2万个H100 TensorCore GPU。

智算中心国产化的新希望

近年来，随着部分国家对高端芯片的出口管制不断加强，国外厂商生产的高档GPU出口受到限制，使得我国在智算领域面临算力供应不足的风险。这种外部压力促使我国加快智算中心国产化的进程，以减少对国外芯片的依赖。近年来，国内已经涌现出了一些优秀的芯片厂商，如昇腾芯片、寒武纪等。

但万卡集群的构建并非简单的GPU卡堆叠，而是一项高度复杂的超级系统工程。通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起，大幅提升GPU节点间的通信效率，使其在瞬息之间便能处理海量数据与复杂计算任务。

当前万卡集群，尤其是基于国产技术栈的万卡集群还处于起步阶段。从整个技术栈来说，不仅需要在计算、存储、网络等方面实现横向协同，也需要在基础设施、芯片使能软件、框架层面实现纵向协同，涉及的技术领域之广，技术难度之大可想而知。

面向大模型孵化，从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议，也为产业在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助，极大推动了国内智算产业的成熟。

免责声明：

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证，并在此声明不承担信息可能产生的任何责任、任何后果。

2、本号非商业、非营利性，转载的内容并不代表赞同其观点和对其真实性负责，也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误，负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网，所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品，请与我们取得联系，我们会及时修改或删除。