随着AI技术的飞速发展,特别是AI大模型对算力的需求快速增长,算力集群的规模正以前所未有的速度扩张,从千卡到万卡,再到未来的十万卡、百万卡,这一趋势已成为智算产业发展的必然。
国产万卡集群建设,元年开启AI大模型的热潮持续蔓延,智算基础设施需求水涨船高。
小米搭建GPU万卡集群的消息引起广泛关注,其实也并不意外。当前阶段,算力集群扩张是AI技术进步的必然结果。我国智算建设仍处于窗口期,满足AI训练需求的万卡/超万卡集群仍较为短缺,特别是核心厂商的大规模/超大规模智算中心仍是稀缺资源,将是带动行业新一轮成长的重要力量。
截至今年6月,我国已建和在建的智算中心超250个。过去20年间,我国智能算力需求增长超过百亿倍,这一趋势使得算力中心正朝着万卡规模迈进。
当前,火热的大模型技术和面向行业场景化的创新AI研发,都离不开算力资源的有力支撑。特别是在训练端,大模型仍延续了Scaling Law的主流技术路线:通过算力、算法、数据的深度融合与经验积累,实现模型性能的飞跃。在Scaling Law方向下,需要单点规模够大且通用的算力才能快速跟上技术演进。
万卡集群就成为了破题方法之一。这种集群将充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台超级计算机,进行千亿级甚至万亿级参数规模的大模型训练。
可以看到产业多方都在万卡、甚至超万卡集群领域进行广泛布局,涵盖从芯片研发到大规模AI模型训练的多个方面,主要以四类企业为代表,包括:AI芯片企业、大型AI研发企业、电信运营商、互联网企业。
压力给到了云厂商在投入踊跃的企业中,行业龙头典型的算力需求在1000卡~5000卡规模,而大模型创企的需求则在万卡水平。这些企业在训练和推理过程中,遇到了各种问题,他们对智算基础设施提出了四个主要的诉求——高速网络互联、集群稳定性、资源利用率、大模型训练和推理工具等。而这些需求与CPU云时代截然不同。
比如有人把GPU比作赛车,要让赛车性能发挥到极致,就要给它建立专业赛道。在搭建GPU集群时,企业要求云厂商提供一个更好的网络硬件互联架构。
稳定性是一件要命的事。CPU的功耗只有两三百瓦,GPU已经1500瓦了。黄仁勋因此被戏称为“核弹狂魔”。功耗高代表着集成度高,这就容易出故障。“我们算过,一个千卡集群,按照现有市场价格,一天的租金是二三十万元。平台稳定性不好了,我们的损失就很大。”一家车企人士说。而视频大模型企业生数科技人士告诉数智前线,他们核心的诉求是“稳定性”。平台稳定,确保他们在视频生成的核心技术“高一致性”上实现突破。
资源利用率也是企业最关注的问题,因为GPU太贵了,利用率左右着ROI。
到了大模型时代,基础设施转向了极致高密、极致互联与极致规模。国外今年已从十万卡向百万卡集群迈进。用不了太长时间,可能一个数据中心,就会“缩到”一个机柜里或一个节点上。
由于过去十多年在整体AI上的投入,百度从2009年开始,在中国互联网企业中第一家开始使用GPU做集群加速,2021年已建成三四千卡单一任务的GPU集群,并逐步形成了有丰富技术栈的百度百舸异构计算平台。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。