作者 | 葛覃
自从“达特茅斯会议”之后,人工智能技术和产业发展三起三落,骤然爆火的大模型让产业看到了一种新的可能,人工智能的价值从分散走向集中,All in one的大模型拓展了商业化的海量空间。
过去几个月,科技圈企业的焦虑可以分为两种,一种是还没做大模型的,一种是开始着手做大模型的,前者担心未来被大模型颠覆,后者担心在做大模型的过程中,自己就先扛不住被淘汰了。
现阶段企业无论是想要从头训练一个基础模型,还是基于已有基础模型精调出自己的专属模型,面临的首要问题就是——训练。
确切地说,是大规模、高性能、异构算力的集群训练。大模型训练需要「熔炼」算力、算法和数据等要素,才能产生生成式AI智能涌现的效果,这是一个复杂的系统工程,覆盖底层软硬件到上层应用的全流程。
笔者观察到,云厂商正在成为大模型训练市场的主导力量,云服务能够屏蔽底层的复杂性,直接将服务提供给客户,大模型训练集群的构建愈是复杂,云服务的价值就愈凸显。
一次体现云厂商综合实力,且可能影响云计算未来格局的新战事,就这样发生了,天翼云的智能计算平台“云骁”,是其中的代表之一。
大模型训练的三堵墙
大家最近的普遍感受就是,能满足大模型训练平台的提供商不多,高性能算力供应整体比较紧张,成本高暂且不表,砸钱还买不到合适的算力,让企业陷入窘境。
企业对大模型训练算力的需求,从囤卡、囤服务器,迅速过渡到寻找算力平台,按照以往的AI任务或者AI模型训练思路,通常单机单卡、或者单机多卡就可以满足,训练周期在小时到数天之间,但大模型显然不是简单的算力堆砌。
如今大模型动辄十亿级、甚至百亿级、千亿级参数,从经济和性能的角度来讲,大多数厂商都不想或不能构建这样的训练平台。天翼云资深专家陈希表示,横亘在企业面前的至少有三堵墙:算力墙、存储墙和通信墙。
首先是算力墙,完成一个千亿参数级别大模型的训练,例如GPT-3,需要314 ZFLOPs,而单卡只有 312 TFLOPS 算力时,一张卡训练一个模型耗时 32 年,所以需要引入分布式训练的方法,使用多机多卡的方式来加速模型的训练,包括比较常见的数据并行和张量并行。
其次是存储墙,单显卡的显存已经无法加载千亿级参数,千亿级参数完全加载到显存大概需要几个TB,如果再考虑梯度、优化器状态等训练过程产生的一些中间结果,占用的显存量就更大了。
往往需要上百张卡才可以支持千亿级参数,一般会引入流水线并行策略,将模型不同的层放到不同节点的显卡内进行计算,一组节点只需要加载某一些层的参数,减少显存压力。
最后是通信墙,由于算力墙和存储墙的存在,大模型并行切分到集群后,模型切片间会产生大量通信,包括节点内多卡通信、节点间通信。不论哪种并行方式,都会涉及到大量的网络通信成本,对总线和总带宽都有很高的要求,要达到几百G的吞吐量。
此外,大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显,随着transformer架构的引入,平均每2年模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm,单卡算力增长不超过4倍,芯片工艺发展落后于大模型的需求。
云骁智算平台,大模型训练的系统性思考
钱学森的《系统论》提出,要从整体上考虑并解决问题,对于系统研究来说,一个核心是认识系统,另一个是在认识系统的基础上去运用和改造系统。
如果我们以同样的视角,观测大模型训练算力平台,其本身就是一个复杂系统,大模型训练需要的不单单是算力,对存储、安全、训练框架都有一定要求,需要一套比较完整的平台或服务来提供支持。
天翼云智能计算平台“云骁”,是运营商首个云、智、超一体化的算力平台,提供智算、超算、通算等多种算力服务,可以满足用户多样化算力需求。
云骁平台基于天翼云TeleCloud OS4.0分布式云操作系统,整合了下一代GPU主机,单卡算力最大可以达到1979TFlops,单机吞吐量可达1.6Tb,支持IB、RoCE等多种RDMA网络,实现us级时延。文件存储可提供百万IOPS、单文件40亿文件能力。同时云骁智算平台针对大模型训练场景还将提供一系列加速能力。
陈希介绍,在ChatGPT尚未火爆之前,云骁智算平台就已经在筹划建设,随着大模型的火热,客户的需求逐渐明确,在AI基础设施层,云骁所要解决的工作也就更加清晰。
“比如大家谈模型训练往往更关注的是GPU算力,但训练之前数据预处理环节,怎么能最短时间把数据加载、发挥CPU算力完成相关处理,让大模型训练任务高效进行。如果这个问题不能有效解决,整个模型训练效率会受到很大影响。这只是其中一个例子, 大模型训练过程中的诸多环节涉及大量软硬件协同、调优问题都需要考虑,这些也都是智算平台聚焦解决的。”他说。
过去天翼云售卖的是一台机器,和机器上的GPU卡,大模型来了之后,云骁平台一方面可以整合计算、存储、网络以高性能集群的形态提供算力,同时通过适配各种主流训练框架为用户提供开箱即用的使用体验,另一方面平台重点聚焦软硬件加速包括数据缓存加速、通信库加速、算子优化等能力,让智算算力发挥极致性能;这些功能部分已经实现,部分在规划之中。
只有通过系统思考和精细调优,才能获得最优的训练结果,企业客户所使用的云骁智算平台,即是天翼云技术和认知的系统性输出。
大模型开启的算力新生态
相较于云计算对传统IT的重塑,大模型让云的存在感更突出,细数人工智能的三要素,算力、算法和数据,云厂商天然具备优势,这也是天翼云等厂商的机会窗口。
参照云骁智算平台,云平台可以提供弹性和可扩展的计算资源,以及高可靠性和安全性的数据存储和处理服务,使得大模型的训练和推理任务可以高效地完成。同时,大模型训练和推理需要使用深度学习框架等,可以大大简化大模型的开发和部署过程,云骁已经支持主流的深度学习框架。
云厂商还具备丰富的数据服务和应用接口,可以使得大模型的应用场景更加广泛和灵活。在未来大模型泛化使用阶段,大模型需要持续的数据更新和优化,云平台可以提供持续集成和持续交付(CI/CD)的服务,可以自动化地完成模型的训练和优化过程,使得模型的更新变得更加快速和高效。
可以预见的是,云厂商的智算平台在很大程度上将承接大量的算力需求,在逐渐成型的大模型算力生态中,云厂商居中起到承转合的重要作用。
陈希表示,从最上游的芯片厂商,到算力服务提供商,大模型服务提供商,数据提供商,大模型调优厂商,以及基于大模型的SaaS厂商。在整个产业链条上有非常多的机会。
“大模型未来的发展一定离不开云。云厂商和大模型提供商一定是紧密结合的关系,可能是一体,也可能是合作。”他表示。
天翼云作为云厂商,为大模型服务支撑上也具备一定的优势。例如在多级训练/推理算力布局方面,天翼云提供了中心一级训练池和区域二级训练池;在数据安全层面,天翼云在数据专线、传输全链路安全、数据存储加密、数据备份、数据隔离都提供了完整体系化的能力。
值得一提的是自主创新趋势,在大模型领域,国内很多企业、科研机构对自主创新的需求越来越多,天翼云在国产化AI算力具备完善的软硬件体系,从芯片、异构计算架构、训练框架到平台,能够为客户提供了很好的支持。
作为智算、超算的一体化算力平台,云骁已经在众多客户场景落地,在能源领域,天翼云为客户建设了高性能计算集群,实现了勘探新技术的常规化应用,可缩短地震资料出站时间60%以上;在汽车行业,天翼云为客户打造超算中心,为其工业设计仿真、数字建模等提供高性能、稳定的算力及网络服务。同时,云骁还为智能语音服务、人工智能研究机构等客户,训练和微调大模型。
大模型呼啸而来,在这一次浪潮中不可或缺的智算平台,已经成为云市场的新变量。
The End