万卡集群:从"打群架"到"群体突破"还有多远?

胡媛看科技 2024-05-15 08:30:38

从ChatGPT到Sora、Claude 3、Llama 3等,大模型参数从百亿级、千亿级迈向万亿级,模型能力更加泛化,大模型之战如火如荼,国产大模型迫切需要加速追赶甚至超越。与此同时,也引发一波新的AI算力荒,从此前的芯片紧缺,上升为AI算力集群级的“饥渴症”。

数据显示,到2030年,通用算力将增长10倍,达到3.3 ZFLOPS,而智能算力将增长500倍,达到105 ZFLOPS。作为人工智能产业的算力底座,智算中心未来3~5年有望保持超30%的高速成长,千卡集群、万卡集群将是其完成跃迁的重要跳板。

“集群”弥补“单卡”:解决AI算力荒的必要路径

随着大模型训练与推理需求呈几何级数爆发,再加上GPU供应存在干扰,算力芯片的供求缺口相当巨大。“N卡难求”引发抢购、囤货风潮,而市场中也很难找到直接对标国际巨头单卡性能的产品。

业内专家指出,当下我国智能算力处于严重的供不应求状态,大模型对算力需求增长已远高于单颗AI芯片性能的增长速度,通过集群互联弥补单卡性能不足,也许是当下最值得探索并解决AI算力荒的必要路径。考虑到多重因素叠加,以及与国产大模型共同打造AI产业商业闭环的需求,构建自主创新的本土化集群更是迫在眉睫。

显而易见,千卡集群、万卡集群是满足AI算力需求的抓手。万卡集群是什么?即使用数万个GPU构建大型人工智能算力集群,用以训练基础大模型。这种集群有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代,并及时对市场趋势作出应对。

从千卡集群到万卡集群时代,从卷“模型”到卷“应用”,业界亟需高效、可持续的算力,跑通多种新计算任务。在这些多样化新需求驱动下,将芯片系统组合起来的新型万卡智算中心,成为满足大模型产业落地的重要抓手,也成为大国AI较量的标配新基建。

据了解,国内智算中心未来搭建集群主要有两个选择。一是采用国内外芯片“混搭”的集群模式,这对系统优化的要求很高,“最短的木板”可能影响算力整体效率的充分释放,预计需要较长时间的磨合才能找出最优路径;二是采用国产化的集群模式,在“能用”的基础上向“好用”不断迈进,以扎实的实践成果开辟自主创新的广阔天地。

过去一年,我国千P级智算中心的智算基建布局集中爆发。当前,国内的万卡智算中心仍处于发展初期,面临发展挑战。因此,留给国产AI算力的机会,就在千卡以上的集群,以及背后的软件生态。正如中国工程院院士郑纬民所说,构建国产万卡系统,虽然很难,但很必要。

大模型专家、国内首个AI大模型产业赋能中心运营人刘秋江告诉《通信产业报》全媒体记者,目前有越来越多的万卡算力集群正在建设中,但是目前多数大模型还处于训练迭代和小规模使用阶段,无法满足可见的产业需求,未来还需要建设更多的算力集群。

万卡集群竞赛:科技公司“打群架”

目前,算力集群已经从千卡集群迈入了万卡集群、五万卡集群。甚至有预测,GPT-6未来部署的时候,需要70万~80万张卡才能支撑。

攒算力这个事,各大科技公司各显神通,纷纷投入研发,提出各种在万卡集群上用于训练大模型的方案。不过,能设计并有效运行万卡集群的企业,仍掌握在少数手中。

在国际大舞台上,诸如Google、Meta、微软、亚马逊、特斯拉等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发,以及生态服务等方面的技术创新。如Google推出超级计算机A3 Virtual Machines,拥有26,000块Nvidia H100 GPU, 同时基于自研芯片搭建TPUv5p8960卡集群。Meta在2022年推出拥有16,000块Nvidia A100的Al研究超级集群Al Research Super Cluster,2024年初又公布了2个24576块Nvidia H100集群,支持下一代生成式Al模型的训练。

在国内,通信运营商、头部互联网企业、大型AI研发企业、AI初创企业等均在超万卡集群的建设和使用过程中不断推动技术革新。

运营商作为国家算力基础设施建设的中坚力量,正加速推进超万卡集群智算中心的建设。中国移动不久前透露,今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张GPU卡。中国电信于今年上半年在上海规划建设到达15,000卡、总算力超4500P的国产万卡算力池,将是国内首个超大规模国产算力液冷集群,也是业内领先的全国产化云智一体公共智算中心。中国联通上海临港国际云数据中心在今年内将建成中国联通首个万卡集群。

在互联网企业中,除了字节跳动是出了名的“N卡”收集狂,阿里巴巴、百度有部分自研芯片外,绝大多数的大中小厂都在疯狂寻找国产AI算力的替代方案。其中,字节跳动搭建了一个12,288卡Ampere 架构训练集群,研发MegaScale 生产系统用于训练大语言模型。蚂蚁集团在去年透露已建成万卡异构算力集群。2023年,腾讯推出的高性能网络星脉,具备业界最高的3.2T通信带宽,为AI大模型带来10倍通信性能提升,基于腾讯云新一代算力集群HCC,可支持10万卡GPU的超大计算规模。

此外,2023年7月,华为宣布昇腾AI集群全面升级,集群规模从4000卡集群扩展至16,000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。2023年,科大讯飞建设成首个支持大模型训练的超万卡集群算力平台“飞星一号”。2024年2月4日,“深圳开放智算中心”点亮“深圳市智慧城市算力统筹调度平台”,这一平台将助力深圳打造10万卡“最强算力”集群。

值得一提的是,对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面,同时还需要针对下游客户的具体需求,提供定制方案。服务器作为算力资源的重要载体,也正成为企业构建万卡集群的核心一环。

那么,从千卡、万卡到十万卡、百万卡,为什么智能计算仍在“堆卡”?这个趋势是可持续的吗?

显然,算力集群卡的数量非线性增加,会带来更大的不稳定性和协作难度。新华三专家认为,与“N卡”相比,我们单卡单打独斗有差距,但多卡集群服务不能打群架。

从“建”到“用”:万卡集群如何跨越五重挑战

关于集群构建的路径探索,业界存在不少误区。有人认为“集群就是一堆服务器叠在一起”,也有人觉得“集群的算力越大越好”,这些观点都低估了复杂系统的运行难度,以及多要素协同突围的重要性。

专家认为,集群建设无疑是一个系统性复杂工程,从GPU到服务器再到组成集群,涵盖计算、存储、网络、软件,以及大模型调度等多个环节,对算力利用率、稳定性、可靠性、可扩展性、兼容性等指标都有颇高的要求,市场期待出现能满足智算中心全栈式需求的“交钥匙”解决方案。

毋庸置疑,在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转,超万卡集群的总体设计应遵循坚持打造极致集群算力、坚持构建协同调优系统、坚持实现长稳可靠训练、坚持提供灵活算力供给、坚持推进绿色低碳发展五大原则。

图片来源:《面向万卡集群的新型智算技术白皮书》

然而,大模型时代,算力即生产力,市场巨头们以数万GPU构建AI集群仍处于起步阶段。《通信产业报》全媒体记者在采访中发现,万卡集群建设还面临五重挑战。

第一,极致算力使用效率的挑战。集群规模的线性提升并不直接导致算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。《面向超万卡集群的新型智算技术白皮书》指出,需要运用系统工程方法,通过对超万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。

第二,海量数据处理的挑战。千亿模型的训练需要对PB量级的数据集使用多种协议进行处理,未来万亿模型的训练对checkpoint的读写吞吐性能更是要求高达10TB/s,现有智算存储系统在协议处理、数据管理、吞吐性能等方面面临诸多挑战。需要通过协议融合、自动分级等一系列技术手段,提供高效的数据共享和处理能力,满足大模型训练的需求。

第三,超大规模互联的挑战。随着模型规模扩大,需要多机多卡互联和并行训练策略,这对网络的ScaleOut(横向拓展)和ScaleUp(纵向拓展)提出极高要求。这就要求参数面网络和数据面网络需要具备高带宽、低时延和高可靠性,支持大模型训练的数据吞吐和计算需求。

第四,确保大规模训练过程中的高稳定性与高效率。在大模型训练中,稳定性至关重要,因为失败和延迟虽然常见,但代价高昂。缩短故障恢复时间刻不容缓,因为一旦有掉队者,不仅影响个人进度,更可能导致数万GPU的整体作业受阻。需要精心优化,确保训练稳定高效,来应对这一挑战。

第五,国产软件生态挑战。虽然国内已经有30多家公司推出了国产AI芯片,但用户不太喜欢用,核心问题就是国产软件生态不好。目前,编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配系统、容错系统、存储系统等关键软件,虽然都有国产的,但仍有不足之处,比如功能不够齐全、性能不够好、生态贡献者不够繁荣等。

随着AI大模型参数越来越大,对算力集群提出了更高依赖和渴求,要求算力厂家在芯片、调优、通信,以及系统性开发和管理等多方面下功夫,从而真正跑出大模型产业发展的加速度。

0 阅读:2

胡媛看科技

简介:感谢大家的关注