2月5日,这是国内首个正式点亮的自研万卡集群。该成果不仅标志着百度在人工智能算力领域取得重大突破,还为整个行业的发展注入新动力。百度智能云还计划进一步点亮 3 万卡集群,探索更高性能与扩展性的算力边界。

此次万卡集群的成功点亮,得益于百度在硬件和软件方面的技术创新。硬件层面,昆仑芯 P800 芯片的应用是关键。尽管目前官网尚未公布其详细参数,但从此次万卡集群的表现来看,昆仑芯 P800 在性能和稳定性上有着出色表现。同时,百度突破卡间互联拓扑限制,避免通信带宽成为瓶颈,为大规模数据处理提供高效支持。面对万卡规模集群带来的高功耗挑战,百度采用创新性散热方案,有效解决了能效与散热问题,确保集群稳定运行。
在软件层面,2024 年 9 月升级的百度百舸 AI 异构计算平台 4.0 发挥了关键作用。在分布式训练优化上,百舸 4.0 采用高效并行化任务切分策略,将训练主流开源模型的集群 MFU 提升至 58%,大幅提升模型训练速度和资源利用率。针对机间通信带宽需求,百舸 4.0 构建超大规模 HPN 高性能网络并优化拓扑结构,将带宽有效性提升至 90% 以上,实现了完全无阻塞通信,并通过 10ms 级别超高精度网络监控,保障了网络稳定性。在多芯混训方面,百舸 4.0 可自动进行芯片选型,依据集群剩余资源选择性价比最高的芯片运行任务,实现高达 95% 的万卡多芯混合训练效能。在集群稳定性上,百舸 4.0 提供全面故障诊断手段,能快速自动侦测节点故障,结合百度自研的 BCCL(百度集合通信库),将故障恢复时间从小时级缩短到分钟级,极大提高了集群的可靠性和可用性。
随着国产大模型的兴起,万卡集群逐渐从 “单任务算力消耗” 向 “集群效能最大化” 过渡。通过模型优化、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,可提升集群综合利用率,降低单位算力成本。百度通过自研芯片和大规模集群建设,不仅解决自身算力供应问题,还为行业提供新的发展思路。
花旗银行发布的研报指出,DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球 AI 应用开发,推动 2025 年成为人工智能应用的拐点。此次百度成功点亮昆仑芯三代万卡集群,以及即将点亮的 3 万卡集群,有望进一步推动人工智能技术的发展与应用,为全球 AI 产业带来更多创新与变革。
