国内首个！百度成功点亮昆仑芯三代万卡集群

2月5日，这是国内首个正式点亮的自研万卡集群。该成果不仅标志着百度在人工智能算力领域取得重大突破，还为整个行业的发展注入新动力。百度智能云还计划进一步点亮 3 万卡集群，探索更高性能与扩展性的算力边界。

此次万卡集群的成功点亮，得益于百度在硬件和软件方面的技术创新。硬件层面，昆仑芯 P800 芯片的应用是关键。尽管目前官网尚未公布其详细参数，但从此次万卡集群的表现来看，昆仑芯 P800 在性能和稳定性上有着出色表现。同时，百度突破卡间互联拓扑限制，避免通信带宽成为瓶颈，为大规模数据处理提供高效支持。面对万卡规模集群带来的高功耗挑战，百度采用创新性散热方案，有效解决了能效与散热问题，确保集群稳定运行。

在软件层面，2024 年 9 月升级的百度百舸 AI 异构计算平台 4.0 发挥了关键作用。在分布式训练优化上，百舸 4.0 采用高效并行化任务切分策略，将训练主流开源模型的集群 MFU 提升至 58%，大幅提升模型训练速度和资源利用率。针对机间通信带宽需求，百舸 4.0 构建超大规模 HPN 高性能网络并优化拓扑结构，将带宽有效性提升至 90% 以上，实现了完全无阻塞通信，并通过 10ms 级别超高精度网络监控，保障了网络稳定性。在多芯混训方面，百舸 4.0 可自动进行芯片选型，依据集群剩余资源选择性价比最高的芯片运行任务，实现高达 95% 的万卡多芯混合训练效能。在集群稳定性上，百舸 4.0 提供全面故障诊断手段，能快速自动侦测节点故障，结合百度自研的 BCCL（百度集合通信库），将故障恢复时间从小时级缩短到分钟级，极大提高了集群的可靠性和可用性。

随着国产大模型的兴起，万卡集群逐渐从 “单任务算力消耗” 向 “集群效能最大化” 过渡。通过模型优化、有效训练率提升、动态资源分配等手段，智能调度任务，将训练、微调、推理任务混合部署，可提升集群综合利用率，降低单位算力成本。百度通过自研芯片和大规模集群建设，不仅解决自身算力供应问题，还为行业提供新的发展思路。

花旗银行发布的研报指出，DeepSeek、百度等中国模型展现出高效和低成本优势，将有助于加速全球 AI 应用开发，推动 2025 年成为人工智能应用的拐点。此次百度成功点亮昆仑芯三代万卡集群，以及即将点亮的 3 万卡集群，有望进一步推动人工智能技术的发展与应用，为全球 AI 产业带来更多创新与变革。