近几年,人工智能特别是2023年ChatGPT的狂飙式发展使人们相信,人工智能不再仅看作是一项能够改变未来发展和商业模型的新技术和商业工具,而将在很大程度上重塑世界格局和人类社会,影响到每一个国家、机构、企业和个人。
ChatGPT开创AI新时代
在日前举行的一个会议上,中国电信集团科技委主任韦乐平在做主题演讲时指出,算力、数据、算法是AI的基础、根本和灵魂。AI的三层次模型包括,任务模型(TSAI)即模型的应用;领域模型即行业模型;认知模型(AGI)即通用AI,能看、能听、能思考、能规划,实现真正类人的智能。
中国电信集团科技委主任韦乐平表示,大模型价值在应用,小模型的作用不容轻视。
首先,芯片水平决定AI计算能力的物理上限,关键是GPU及其应用生态。目前,高端芯片制程,特别是GPU及其应用生态是我国AI发展的最大短板。
其次,数据要素是数字经济的核心生产要素和重要经济资源。数据的规模、质量和治理体系决定了AI应用的效果和质量。数据的可用数量和质量也是我国短板。
最后,算力离开算法只是一个巨大的高耗能电热器,基于深度学习的高效智能算法是发挥算力作用,规避低效蛮力计算的必然方向。
“ChatGPT开创AI新时代。”韦乐平表示,ChatGPT是AI驱动的自然语言处理工具,GPT-4版本不仅能聊天,而且已具备多模态能力和自主学习、自我进化能力,正成为一款智能决策和创作系统。
韦乐平指出,虽然ChatGPT引入基于人类反馈的强化学习(RLHF),使得模型训练和推理结果与人类常识、认知、需求、价值观对齐,还能自己创编新知识,但ChatGPT还存在一些技术局限。
第一,蛮力计算无底洞,估计GPT-6可能需要10万张H100卡,耗电7百万度,加州电网也难支撑。算力尽头是能源,靠核聚变电厂(奥特曼)。
第二,海量的高质量语料库和高效算法训练才能使模型拟合真实世界,GPT4模型参数已达约1.8万亿(超松鼠大脑),离人脑(100万亿)不太遥远,但仍有荒谬应答(幻觉)。
第三,生成式AI尚处于期望膨胀期,潜力不可低估,也不应无限夸大,并不适用一切场景,多数场景有更多其他AI技术更适用。
生成式AI尚处于期望膨胀期
在韦乐平看来,生成式AI尚处于期望膨胀期,2~5年进入成熟期。
为了支持越来越大的模型训练新需求,规避伴随而来的性能、处理时长和成本的挑战,GenAI需要最佳联网技术的支撑。
第一,以太网。传统以太网难以支持大模型训练,但是基于强大以太网生态上的无损以太网,特别是超级以太网仍将是最重要的联网技术。
第二,PCIe。可以为复杂的GenAI扩展距离、简化系统架构、减少功耗。
第三,芯片光互连。相比芯片电互连,可以大幅提升计算集群的扩展性(超100T),功耗很低,物理尺寸也更小。
第四,CXL。不仅可以继续用来增大服务器的内存规模,而且将越来越多的用来承担GenAI训练的加速器作用。
第五,IB。目前是性能最佳的成熟联网技术,但是封闭和价高,仍将维系在高端大模型训练市场的相当份额。
未来大模型跨群跨域跨云的挑战
“大模型价值在应用。”韦乐平强调,大模型在最尖端领域,高技术、高投入,高能耗、高风险。仅ChatGPT等5-6个基础大模型能够长期存活。在次尖端领域,行业大模型层出不穷,成千上万。在泛在应用,无穷无尽,是各类大模型真正体现价值和商业落地的地方。
同时,小模型的作用不容轻视。大模型训练所需要的技术、算力、语料,以及成本很高,却通而不专,在面向具体运行环境的适应性和经济性方面,往往小模型更加实用,省钱、省力、省时间。目前,已经有多种小模型产品问世。
由于单站资源受限,未来可能需要在园区、AZ乃至更大范围内由多个物理集群构成一个超级逻辑集群进行联合训练才能支撑超大模型的训练。推理本身与具体业务场景相关,更可能需要跨域跨云实施。
韦乐平指出,未来大模型面临跨群跨域跨云的挑战。距离增大导致时延变大,高频次通信的效率将降低,导致网络吞吐量降低,影响GPU利用率。此外,故障概率也将增大。
韦乐平建议,解决不同集群间参数的传递和同步,以及大量数据跨群跨域跨云传输的不同时延导致的训练速度减慢的问题。
一方面,训练任务被拆分到不同集群上实行并行训练,根据不同的训练任务和场景,采用数据并行、流水线并行、张量并行等多种不同策略。
另一方面,采用空芯光纤从物理层上直接降低数据传递时延(降33%)。
韦乐平认为,目前的AI依然只是技术,还不算是科学,深度学习已开始遇到发展瓶颈。