超万卡集群建设正起步,现主要依赖英伟达GPU及其配套设备。英伟达GPU在大模型训练中优势显著。国产AI芯片虽在政策与应用驱动下取得进步,但整体性能与生态建设仍有不足。构建一个基于国产生态、技术领先的超万卡集群,仍需克服诸多挑战。
大模型向万亿参数多模态演进,万卡集群亟需升级底层算力。核心在于强化单芯片性能、提升超节点计算能力、融合DPU多计算能力,并追求算力能效极致化
1、超万卡集群核心设计原则
在大数据与大算力驱动大模型构建的时代,超万卡集群的部署远非算力堆砌,而是追求数万GPU如“超级计算机”般高效协同。集群设计需遵循五大核心原则,确保高效运行与卓越性能。
倾力构建超万卡集群大算力基座:融合Scale-up与Scale-out互联技术,单节点算力飙升,集群规模跃升至万卡以上,共同构筑极致集群算力新标杆。
构建协同调优系统,利用超大规模算力集群,结合DP/PP/TP/EP等分布式并行策略,提升有效算力,优化计算通信比,极大提升模型开发效率。
专注实现持久稳定训练:自动检测修复软硬件故障,优化千万器件满负荷系统,增强MTBF、缩短MTTR,支持断点续训。确保千亿稠密、万亿稀疏大模型稳定训练长达百日,提升系统稳定性与鲁棒性。
坚持灵活算力供给,支持集群算力高效调度,实现弹性供给与隔离,按需调配训练与推理资源,确保单集群大作业与多租户多任务并行训练性能卓越,助力业务高效运行。
坚持绿色低碳发展,深化液冷解决方案在超万卡集群应用,实现卓越绿色算力能效比(FLOPs/W),突破液冷PUE至1.10以下,引领绿色计算新高度。
2、超万卡集群整体架构设计
超万卡集群架构独特,涵盖机房配套、基础设施、智算平台、应用使能四层,及智算运营运维一体化域,实现高效智能运算与管理。
机房配套层专为超万卡集群高密度建设设计,聚焦高效供电、先进制冷、强承重楼板与精巧走线架,确保稳定运行。
基础设施层集算、网、存于一体,实现集群算力最大化。CPU、GPU、DPU协同,强化计算能力;网络采用独立组网,大带宽RoCE与二层CLOS满足大象流需求,确保负载均衡与多租安全;存储方面,融合与分级存储技术确保数据并发访问无阻塞。整体设计精准高效,满足高性能计算需求。
智算平台层以K8s为核心,高效整合裸金属与容器资源,实现集群资源的自动化精准管理,确保高效训练与稳定运行。展望未来,平台将引入异厂家GPU芯片,并融入算力原生技术,实现跨架构应用迁移与异构混训,有效避免智算碎片化,提升整体算力效能。
应用使能层集模型训练框架与开发工具集于一体。基于开源框架,我们进行分布式训练优化,并前瞻性地设计自动分布式训练框架,实现通信与计算优化、算子融合及网络性能调优。同时,我们研发数据服务与模型部署工具集,推动从人工到自动化模型研发的转变,提升研发效率与能力。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-