在当今数字经济蓬勃发展的大背景下,AI大模型异军突起,这一现象极大地加速了人工智能领域的探索进程,与此同时,也催生了对智算中心的庞大需求。在国产化浪潮的推动下,万卡集群智算中心正面临着前所未有的全新发展机遇。
什么是万卡集群万卡集群,是指由超过一万张加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以加速人工智能模型的训练和推理过程。
至于为什么需要一万张加速卡?
众所周知,大模型竞赛的本质是算力竞赛。比如这里有一个超大土堆,放一个工人和放一万个工人,在效率上肯定会有质的飞跃。
以OpenAI训练GPT模型为例,GPT-4需要使用2.5万张英伟达A100 GPU,并行训练100天左右的时间,在此期间要处理13万亿个token,并且涉及大约1.76万亿个参数。在不久的将来,开发大模型所需的算力将实现指数级的增长,对于即将亮相的GPT-5,预计该模型的训练需要部署20万~30万个H100 GPU,耗时130~200 天。
国产智算争相开启“万卡”元年AI大模型的热潮持续蔓延,智算基础设施需求水涨船高。
小米搭建GPU万卡集群的消息引起广泛关注,其实也并不意外。当前阶段,算力集群扩张是AI技术进步的必然结果。我国智算建设仍处于窗口期,满足AI训练需求的万卡/超万卡集群仍较为短缺,特别是核心厂商的大规模/超大规模智算中心仍是稀缺资源,将是带动行业新一轮成长的重要力量。
当前,火热的大模型技术和面向行业场景化的创新AI研发,都离不开算力资源的有力支撑。特别是在训练端,大模型仍延续了Scaling Law的主流技术路线:通过算力、算法、数据的深度融合与经验积累,实现模型性能的飞跃。在Scaling Law方向下,需要单点规模够大且通用的算力才能快速跟上技术演进。
万卡集群就成为了破题方法之一。这种集群将充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台超级计算机,进行千亿级甚至万亿级参数规模的大模型训练。
万卡集群成为新赛道当前,火热的大模型技术和面向行业场景化的创新AI研发,都离不开算力资源的有力支撑。进入大模型时代,算力需求日益复杂,不仅要求算力资源更加充沛和灵活,还要求算力基础设施向智能化和一体化的方向发展,以更高效率和性能来支持更大规模计算。
当前,国际、国内科技巨头都在通过积极部署千卡乃至超万卡规模的计算集群,以确保大模型产品的竞争力。随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。
以运营商中国电信为例,紧随人工智能、大模型等产业发展方向,中国电信目前在上海、北京两个万卡集群已经投产,其中,中国电信临港智算谷终期规划30万卡高端智算集群。中国电信万卡资源池将为广大企业提供高效、稳定、安全的一站式智算服务,支持企业数字化转型和智能化升级。国产算力资源将赋能智慧城市建设、公共服务优化等应用场景,提高政府治理能力和公共服务水平。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。