2023年以来,大模型及生成式AI的大规模爆发,快速带动了全球对智算的需求。国际上,包括Meta、微软&OpenAI、xAI等多家AI巨头陆续宣布或者完成10万卡集群。智算中心已从千卡、万卡,迈入十万卡大关。
什么是万卡集群万卡集群,是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。
至于为什么需要一万张加速卡?
众所周知,大模型竞赛的本质是算力竞赛。比如这里有一个超大土堆,放一个工人和放一万个工人,在效率上肯定会有质的飞跃。
以OpenAI训练GPT模型为例,GPT-4需要使用2.5万张英伟达A100 GPU,并行训练100天左右的时间,在此期间要处理13万亿个token,并且涉及大约1.76万亿个参数。在不久的将来,开发大模型所需的算力将实现指数级的增长,对于即将亮相的GPT-5,预计该模型的训练需要部署20万~30万个H100 GPU,耗时130~200 天。
如今OpenAI发布ChatGPT已有两年的时间,从建设进度上看,海外头部厂商在2022年、2023年已经完成万卡集群搭建。比如2023年5月,谷歌推出的AI超级计算机A3,搭载了约26000块英伟达H100 GPU;2022年,META宣布了一个由1.6万块英伟达A100 GPU组成的集群。
到了2024年初,META进一步扩大规模,建成了两个各含24576块GPU的集群,并设定了宏伟目标:到2024年底,构建一个包含35万块英伟达H100 GPU的庞大基础设施。亚马逊Amazon EC2 Ultra集群采用了2万个H100 TensorCore GPU。
智算中心国产化的新希望近年来,随着部分国家对高端芯片的出口管制不断加强,国外厂商生产的高档GPU出口受到限制,使得我国在智算领域面临算力供应不足的风险。这种外部压力促使我国加快智算中心国产化的进程,以减少对国外芯片的依赖。近年来,国内已经涌现出了一些优秀的芯片厂商,如昇腾芯片、寒武纪等。
但万卡集群的构建并非简单的GPU卡堆叠,而是一项高度复杂的超级系统工程。通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起,大幅提升GPU节点间的通信效率,使其在瞬息之间便能处理海量数据与复杂计算任务。
当前万卡集群,尤其是基于国产技术栈的万卡集群还处于起步阶段。从整个技术栈来说,不仅需要在计算、存储、网络等方面实现横向协同,也需要在基础设施、芯片使能软件、框架层面实现纵向协同,涉及的技术领域之广,技术难度之大可想而知。
面向大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,也为产业在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助,极大推动了国内智算产业的成熟。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。