蚂蚁用国产芯片训练AI模型,成本降低20%!媲美英伟达H800

卓哥谈科技 2025-03-26 11:58:47

3月24日消息,国产AI模型,再次迎来新突破!蚂蚁集团近日使用国产芯片开发了一种更高效的人工智能模型技术,可将成本降低20%。

蚂蚁回应:基于不同芯片持续调优,逐步开源

当地时间3月24日,美媒彭博社、CNBC等援引知情人士报道称,蚂蚁集团采用了包括阿里巴巴和华为在内的中国国产芯片,基于所谓的“专家混合”(Mixture of Experts)机器学习方法来训练模型,最终得到的结果与使用英伟达H800等芯片训练相当。

报道还称,虽然蚂蚁集团仍在使用英伟达芯片进行AI开发,但其最新模型已主要基于包括超威半导体(AMD)及中国国产芯片的替代方案。

针对这一消息,蚂蚁集团方面回应界面新闻称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

蚂蚁发布开源MoE大型语言模型,Ling-Lite和Ling-Plus

自DeepSeek在年初爆火以来,其远低于OpenAI和Alphabet旗下谷歌数十亿美元的投资来训练强大的模型,让这场竞争愈演愈烈。

在本月初,蚂蚁集团CTO、平台技术事业群总裁何征宇带领Ling Team团队,开发了两款两种不同规模的开源MoE大型语言模型 (LLM)——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。相关技术成果论文已发表在预印版Arxiv平台上。

在论文中蚂蚁集团透露,其解决了训练大规模混合专家 (MoE) 模型的挑战,重点是克服了此类系统中普遍存在的成本低效和资源限制。

Ling-Lite包含168亿个参数,而Ling-Plus拥有2900亿个参数。据《麻省理工技术评论》报道 ,相比之下,专家估计GPT-4.5参数量为1.8万亿,DeepSeek-R1参数规模达6710亿。

论文显示,在英语语言理解方面,Ling-Lite模型在一项测试中性能可与 Qwen2.5-7B-Instruct相媲美,优于Meta的Llama3.1-8B模型。Ling-Plus的性能可与DeepSeek-V2.5-Chat和 Qwen2.5-72B-Instruct 相媲美。

在中文基准测试中,由于Qwen、Deepseek和蚂蚁的Ling模型均使用了更多中文数据进行训练,因此它们的表现明显均优于Lama 和 Mistral。而蚂蚁的Ling-Lite 和 Ling-Plus 甚至表现还略优于DeepSeek。

在数学和代码基准测试中,Ling-Lite 的性能与 Qwen2.57B相当,而 Qwen 和 Ling-Lite 的性能均优于 Lama3.1-8B 和 Mistral-7B-v0.3。

最终实验结果表明,300B MOE LLM 可以在性能较低的设备上进行有效训练,同时实现与类似规模的密集和MoE模型(如Qwen2.5-72B-nstruct和 DeepSeek-V2.5-1210-Chat)相当的性能。

此外,与高性能设备相比,在预训练阶段还能使用较低规格的硬件系统可以显著节省成本,将计算成本降低约 20%。

长期依赖英伟达高性能计算芯片,其将成本降至508万元左右

近年来,随着OpenAI、Gemini、Claude、Qwen、DeepSeek-AI等大型语言模型(LLM)的快速发展。虽然诸如DeepSeek系列、Qwen系列和MiniMax-01系列等MoE模型都表现出了出色的性能,甚至在某些特定任务中超越了传统的密集模型。

然而,MoE 模型的训练通常依赖于高性能计算资源(例如,像英伟达H100和H800这样的高级AI加速器),而且其高昂的成本限制了其在资源受限环境中的广泛应用。

因此,该研究旨在提出创新的训练策略,使LLM在资源和预算受限的情况下也能实现高效训练,推动AI技术的普惠发展。

为了解决计算资源有限所带来的技术挑战,其实施了一系列系统的优化策略来平衡资源成本和模型性能。

比如,为了实现资源的有效部署受限平台,其采用了以下三种策略:

(1)模型架构优化:基于对密集和MOE模型的扩展规律的全面分析,可以为可用的计算资源选择最匹配的架构。

(2)训练框架优化:对于异构计算平台,其将多个训练框架集成到一个统一的分布式深度学习框架中,即开源项目DLRover 。

此外,为了利用各种平台的具体特点,该团队开发了一个轻量级调试工具 XPUTimer,它有助于快速且经济高效地进行任务性能分析,同时将内存使用量减少90%。此外,团队还实现了一种与平台无关的异步训练策略,即 EDiT(弹性分布式训练),它提高了训练效率,在各种配置下,训练时间最多可减少 66.1%。

(3)存储优化:应用设备多租户和用户空间文件系统(FUSE)等技术,实现大规模训练的高性能和多集群适应性,存储和训练流程的协同设计,提升 MoE 场景下I/O效率,减少 50%的时间消耗。

基于上述技术优化,蚂蚁开发并开源了百灵系列MoE 模型,在资源成本和模型性能之间取得了平衡。

从资源效率角度,以 Ling-Plus为例,在五种不同的硬件配置上对9万亿个 token 进行了预训练。使用高性能硬件配置训练1万亿个 token 的预训练成本约为 635 万元人民币。相比之下,使用较低规格的硬件系统,成本降至 508 万元人民币左右,节省了近20%的成本。

这些结果证明了在性能较弱的硬件上训练最先进(SOTA)的大规模 MoE 模型的可行性,使得在计算资源选择方面为基础模型开发提供更灵活、更经济的方法。

国产AI模型技术进步加快,正向自给自足方向迈进

基于该成果,美媒彭博社方面分析称,蚂蚁集团的论文强调了中国人工智能领域的创新不断增加和技术进步的步伐加快。如果得到证实,将凸显出中国正在朝着人工智能自给自足的方向迈进,因为中国正在转向成本更低、计算效率更高的模型,以绕过英伟达芯片的出口管制。

知情人士表示,蚂蚁集团还计划利用其开发的大型语言模型 Ling-Plus 和 Ling-Lite 的最新突破,为医疗保健和金融等行业提供 AI 解决方案。

而就在近日,蚂蚁集团宣布正加码AI医疗产业布局,联合阿里云、华为、卫宁健康、纳里智数等近百家产业伙伴,推出了全新“蚂蚁医疗大模型一体机”全栈解决方案。

医疗机构仅需一键接入蚂蚁医疗大模型一体机设备,即可完成国产算力、医疗大模型、AI训推一体的私有化部署,推进院内业务系统、患者服务AI升级。据悉,该解决方案已被北京、上海、杭州和宁波的七家主要医院和医疗机构使用。

0 阅读:7
卓哥谈科技

卓哥谈科技

感谢大家的关注