“万卡集群”已成为大模型军备竞赛的最低标配,科技巨头不满足于此,纷纷开启“十万卡集群”的AI大基建步伐。
9月25日的百度云智能大会上,百度宣布升级作为算力基础设施的百舸AI异构计算平台。百度集团执行副总裁、百度智能云事业群总裁沈抖说,新升级的百舸4.0已经具备了成熟的十万卡集群部署和管理能力。
约一周前,阿里云在云栖大会宣布其单网络集群已扩展至十万卡级别。此前9月初,马斯克在社交平台披露,短短122天时间,旗下AI初创公司xAI部署完成10万张英伟达H100GPU芯片组成的Colossus超算集群,而且未来几个月将翻倍至20万张卡。
沈抖预测称,大模型的ScalingLaw(尺度定律)将在一段时间内持续有效,“很快就会有更多的十万卡集群出现”。
所谓ScalingLaw,即AI的“暴力美学”,当数据量和参数规模增加,模型的性能随之提升。但指数级增长的训练数据量,又对底层算力基础设施提出考验。为了快速迭代训练大模型,“万卡集群”乃至“十万卡集群”就成了大模型军备竞赛的先决条件。
然而,超大规模的GPU算力集群面临成本高、难运维的挑战。据沈抖介绍,建一个“万卡集群”,单是GPU的采购成本就高达几十亿。一旦一张GPU出现故障,就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。在模型训练阶段,稳定和高效是衡量GPU集群水平的“金指标”和“硬通货”。
沈抖介绍说,百舸4.0会通过AI算法筛查集群状态,预测故障最有可能在什么地方发生,尽量避免把工作负载分配到可能发生故障的芯片上;同时借助故障秒级感知定位、FlashCheckpoint模型任务状态回滚等技术,大幅减少集群故障处置时间。
当智算集群规模来到十万卡级别,管理的难度会进一步加大,沈抖描述称,管理十万卡的难度与管理万卡有着天壤之别。他说,在物理空间方面,十万卡集群需要占据大概10万平方米空间,相当于14个标准足球场的面积;在能耗方面,每天则要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。
“这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。”沈抖表示,“十万卡集群”中的GPU故障将会非常频繁。Meta用1.6万张卡训练Llama3时,每3小时就会出一次故障,推演到10万卡,意味着每30分钟训练就要中断一次,导致有效训练时长占比非常低。
为了应对这些运维问题,百度方面介绍说,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN(HighPerformanceNetworking)高性能网络、10ms(毫秒)级别超高精度网络监控,以及面向“十万卡集群”的分钟级故障恢复能力。
采写:南都记者杨柳