万卡集群的建设方案建议

薪科技快评 2024-07-19 15:12:46
万卡集群:为什么?是什么?怎么建?

万卡集群面临哪些挑战?

中国电信在今年3月揭开了天翼云上海临港国产万卡算力池的新篇章。同时,中国移动计划年内投产3个规模近两万卡的超大规模智算中心,以及12个区域智算中心,广泛升级1500个边缘节点,使训/推算力资源配比达到1:10。

此外,中国联通上海临港国际云数据中心也将于今年内建成,成为中国联通首个万卡集群。作为国家算力基础设施建设的核心力量,各大运营商正全力推进超万卡集群智算中心的建设。

那么,万卡集群在智算中心起到什么作用?建设万卡集群面临哪些挑战?

为什么:面临三个挑战

智能计算中心,作为新型基础设施,为AI应用提供算力、数据和算法服务。模型、数据、算力,这三者是其核心构成。

中国移动云能力中心建设部总经理助理牛红韦华在《通信产业报》全媒体访谈中透露,随着模型参数从千亿跃升至万亿,其泛化能力显著提升。大模型对底层算力的需求不断升级,万卡集群应运而生,成为本轮大模型基建军备竞赛的标配。借助万卡集群,大模型训练时间得以压缩,实现快速迭代。

万卡集群,由一万张或以上的加速卡(如GPU、TPU或专用AI芯片)构建,是高性能计算系统的一种。它整合了高性能GPU计算、RDMA网络、并行文件存储和智算平台等关键技术,将底层设施融合为一台"超级计算机"。此集群可支持千亿甚至万亿级参数规模的大模型训练,大大缩短大模型训练时间,实现模型能力的快速迭代。

以OpenAI训练GPT模型为例,GPT-4需要使用2.5万张英伟达A100 GPU,并行训练100天的左右时间,在此期间要处理13万亿个token,并且涉及大约1.76万亿个参数。

在不久的将来,开发大模型所需的算力将实现指数级的增长,对于即将亮相的GPT-5,预计该模型的训练需要部署20万~30万个H100 GPU,耗时130~200 天。

“万卡甚至超万卡智算集群将会成为未来智算中心的主要演进趋势,如何建设超万卡集群、如何充分发挥超万卡集群的性能与效率也将会是未来核心技术突破的重点。

牛红韦华指出,万卡集群构建对智算中心的算力效率、数据中心机房的先进性及大规模集群的运维等三大领域带来全新挑战。

一是极致算力使用效率的挑战。

针对大模型分布式训练场景,集群规模的线性提升无法直接带来集群有效算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。我们把集群有效算力分解为“GPU利用率”和“集群线性加速比”两个重要指标,其中“GPU利用率”受限于芯片架构和制程、内存和I/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素,“集群线性加速比”则取决于节点间的通信能力、并行训练框架、资源调度等因素。

在万卡集群中,需要运用系统工程方法,通过对万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。

二是面临高能耗高密度机房设计的挑战。新建智算中心的单机柜功率已从7~8KW跃升至40KW甚至60KW,重量达1~2吨。为此,新建智算机房需以算力为核心,采用绿色低碳能源、高功率机架和液冷技术。

同时,数据中心机房需实现多级通路的冷量按需供给,包括芯片到节点、模组到柜级/机房级等。为确保系统安全可靠,还需采取水电隔离、漏液关断等措施。

三是万卡集群的构建与运维挑战。这个由数千智算服务器、交换机和存储设备构成的庞大网络,以及数万光纤和光模块,承载着训练任务,涉及千万颗元器件的高速运转。由于硬件失效率和大规模器件的存在,硬件故障频发,故障模式复杂多变,给故障管理带来了巨大挑战。在业界,典型的硬件故障定位需要1-2天,复杂的应用类故障定位甚至可能长达数十天。

因此,万卡集群迫切需要一种更有效、更快速、影响更小的自动断点续训功能的支持。

是什么:进展与趋势

全球科技巨头OpenAI、Google、Meta等正竞相部署万卡集群,以驱动大模型、智能算法研发及生态服务的技术创新。国内通信运营商、顶级互联网公司和大型AI研发企业,也在万卡集群的建设与应用中持续推动技术革新。

头部互联网企业,如字节跳动、阿里巴巴、百度等,正积极推进万卡集群的建设,以实现技术服务的创新。其中,字节跳动已成功搭建了一个拥有12288卡Ampere架构的训练集群,并研发了MegaScale生产系统,用于训练大型语言模型。

其次,顶尖AI研发企业如科大讯飞,以万卡集群加速模型为基础进行研发。2023年,他们计划打造首个支持大模型训练的万卡集群算力平台“飞星一号”。

第三,运营商作为算力基础设施建设的核心力量,正加速推动国家一体化算力能力的构建,为社会AI+转型提供坚实支撑。目前,中国移动已成功投产呼和浩特万卡智算中心,部署了近2500台智算服务器,单体算力高达6.7EFLOPS。同时,我们正积极规划建设2个超万卡国产算力集群,助力国家科技发展。

在数据规模持续扩大、集群能力不断增强,以及大模型应用日益丰富的背景下,新型智算底座的升级需求也日益提高。牛红韦华强调,未来的智算集群将从万卡逐渐升级到超万卡,甚至十万卡级别。面对超大规模算力组网、集群效能提升、多元异构算力生态等挑战,万卡集群的未来发展趋势值得我们期待。

首先,我们通过引入创新的芯片设计、超节点技术和跨节点互联网络技术,提升节点算力并突破物理组网限制,构建超大算力集群。这将满足万亿级、数十万亿大模型的高强度训练需求。

为持续提升集群效能,万卡集群需在软硬件、算法、网络等领域创新。我们专注于自动化、跨平台支持、大规模模型训练、跨集群训练及边缘训练等环节的优化,以实现高速、可靠且快速的深度学习模型训练。这不仅能提高模型准确性与训练效率,降低大模型开发的难度和资源成本,还能提供更高效、易用的训练工具,增强集群算力能效比。

最后,我们强化了多元异构算力生态,推动大算力生态的开放融合,推进一云多芯多样算力。打破AI芯片生态壁垒,实现智算在更多GPU芯片上的快速迁移和分布式异构混训。

怎么建:五大技术是关键

在牛红韦华的眼中,万卡集群的构建远非算力堆叠那么简单。要使数万张GPU卡如同一台"超级计算机"般高效运转,万卡集群需应对极致算力效率、海量数据处理、超大规模互联、高可用易运维和绿色高能耗等多维度挑战。构建万卡集群,必须从五大关键技术出发,这是无法回避的路径。

针对高密度高能耗的智算设备,我们打造新型智算中心机房。其具备高效制冷、弹性扩展、敏捷部署及绿色低碳特性,并实现智能化运维管理。采用液冷、弹性供电、AI节能等关键技术,为智算中心建设提供强大支持。

二是集群高能效计算技术。随着大模型向万亿参数级演进,特别是在超长序列输入和MoE架构的应用背景下,高能效计算能力越来越重要。涉及从单芯片能力提升、超越单机8卡的超节点技术、服务器内卡间通信效率提升等多方面系统推进。

三、卓越性能的融合存储技术。万卡集群大模型对存储设备有着高吞吐、高性能、高可靠性和低延迟的需求,因此需要支持超过3000个节点的扩展规模,并具备10TB/s的聚合吞吐带宽和亿级的IOPS。这样,才能将大模型ckpt恢复时间从分钟缩短到秒级。同时,我们还将引入多协议融合和自动分级存储技术,以进一步提升智算数据处理的效率。

第四项是大规模机间高可靠网络技术。智算中心的关键在于引入参数面,用于计算节点间的参数交换。目前,业界成熟的参数面技术主要有IB和RoCE两种。网络保障的核心目标是实现大规模、大带宽、低时延和高可靠性。不断提升的硬件设备能力、流控设计、端网融合技术和高效网络运维等都是智算中心网络发展的关键要素。

五、高容错与高效能平台技术。大集群并不等同于大算力,实现大模型训练需依赖高效的算力调度以挖掘算力平台的潜力。构建面向AI任务的多维调度、断点续训的高容错保障及AI加速服务等能力,确保AI任务的高效运行。

中国移动已成功构建万卡级智算中心,并正积极推广超万卡集群的实际应用。我们广泛采用冷板式液冷、智能母线和AI节能等前沿技术,基于大云磐石智算底座和大云震泽智算服务平台,实现计算、存储、网络等资源的高效管理和灵活运营。我们能为AI任务提供万卡并行训练的强大能力,致力于打造行业领先的智算中心标杆。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:14

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!