在AI技术体系中,深度学习框架处于“承上启下”的位置,南向使能多样化算力,北向孵化各类算法模型,是大模型产业必不可少的环节。在全球层面,TensorFlow和PyTorch占据先发优势,中国市场也不例外,但是华为推出的昇思MindSpore和百度推出的飞桨PaddlePaddle等国产力量正在加速追赶。
在12月14日举办的昇思人工智能框架峰会上,18家单位发布基于昇思的原生开发大模型成果,据预测,中国AI框架2024年新增市场昇思份额将达30%。
华为ICT战略与业务发展部总裁彭红华表示,人工智能框架是AI时代的操作系统与软件底座,领先的AI框架需要同时具备“更高效、更敏捷、更开放”的技术与生态能力,未来华为将持续投入昇思MindSpore,坚持以开源的方式,促进中国人工智能框架生态健康、高速发展。
大模型如何改变深度学习框架
智谱AICEO张鹏在会上表示,去年大家谈得更多的是需要卡、需要算力、需要的是硬件,今年算力问题有所缓解,其中尤其是华为昇腾的努力。现在有了硬件资源,如何把动辄价值千万元人民币的硬件资源用好,主要依靠AI大模型训练的框架和infra(基础设施)。
现阶段最关键的是提升大模型的训练性能,这是整个行业的优先考虑事项,需要深度学习框架的不断改进,让软件更好地适配硬件和上层算法。
“相比于国外发展了十年,甚至更长时间的框架,昇思做了很多工作,智谱也配合增强了分布式并行的能力,增强从训练到推理的一致性和部署可用性。最重要的是我们把核心技术终于从0到1突破了,掌握在自己的手里,能够实现全栈自主创新持续的演进和创新。”张鹏说道。
他还在现场透露,智谱从2020年就开始和众多国产生态进行合作,其中包括昇腾系列硬件,结合昇思MindSpore做完全自主创新的国产大模型训练。
智谱AI的明星产品CodeGeeX诞生于在疫情期间,智谱和华为各自投入了几十人团队,分布式协作完成算法调优、集群稳定性的维护工作、inference的构建。发展到今天,CodeGeeX已经更新迭代了四代模型。
昇思MindSpore开源社区理事长丁诚也提到,大模型技术还在跨越式演进,昇思MindSpore重点关注两点。
第一,大模型的参数量、序列长度和模态结构继续以指数级速度演进。对此深度学习框架要解决异构模型带来的计算不均衡问题,超长序列带来的内存爆炸问题和模型并行出现的流水线空炮问题。
第二,OpenAI发布了o1,使得计算过程从单任务、单模型走向了多任务、多模型,深度学习和强化学习相融合的方式,对此深度学习框架需要解决多模型协同交互下的复杂编程问题,推理和强化学习任务的混合部署和调度问题,训推权重的在线转换,并行策略的动态调整问题。
开源4年份额达30%,昇思成为发展最快AI框架
开源是昇思快速追赶先进框架的主要策略,典型如大模型爆发带来了新的需求,昇思从社区论坛收集到3700多个技术问题,再针对性做技术预研和规划。中国工程院院士何友表示,昇思作为自主创新的AI框架,在大模型时代的开源实践尤为重要,甚至有些指标可以和国际媲美。
彭红华提到,未来昇思主要面向三个层面演进,在开发者编程体验方面,昇思兼容业界主流生态,提供一致开发体验,持续降低迁移学习成本;
在大模型训练方面,提供更丰富的分布式并行策略,结合自动搜索仿真调优,为大模型训练节约端到端成本;
面向最新类o1模型带来的技术挑战,完善多模型多任务调度、训推无缝转换能力,强化学习亲和架构,加速类o1模型演进升级;面向AIforScience场景,昇思持续升级底层函数式编程体验,并打造高性能AIforScience使能套件,联合行业用户、科研机构、学术专家共同加速科研创新,推动科技进步。
现场公布的数据显示,昇思MindSpore自2020年开源以来,目前已孵化、支持50多个国内外主流大模型;开源版本已累计获得1100万次下载,覆盖全球130多个国家和地区的2400多个城市;3.7万多名开发者参与社区贡献。