封面新闻记者欧阳宏宇
从电影《黑客帝国》中“矩阵”被发明,到《头号玩家》里“绿洲”出现,不少影视作品中都描绘了科技发展的拐点时刻。当文生视频大模型Sora掀起新一轮AI热潮,也被不少人视作通向AGI奇点的关键工具。那么,当拐点时刻来临时会有何征兆?
“奇点来临时,可能会出现一个重要里程碑,就是AI探索到人类未知的领域。”2月29日,商汤智能产业研究院院长田丰在接受记者采访时表示,AGI奇点是否到来了,主要看“AI能否表现出人类智能”,以及“对现实世界规则认知能否到位”两个关键指标。“目前,Sora只是通过算力来进行模拟现实世界,还无法理解世界运行的规矩,离真正的技术奇点还有距离。”
Sora技术“渐进式”发展
价值在于对数据标注的创新
Sora推出十多天以后,“只是一个工具”的声音正逐步占据主流。日前,360公司创始人周鸿祎、中国科普作协科学与影视融合专委会常务副主任林育智都对外表示,Sora只是一个工具,关键还是在于算力。
“Sora距离AGI奇点还有相当距离。”田丰分析称,从ChatGPT到Sora,OpenAI算法上的技术策略,始终是把Diffusion扩散模型和Transformer架构结合。
虽然算法架构没有颠覆式变化,但算力和数据的扩张带来了Sora的出圈。在田丰看来,Sora的出现就是“缩放定律”,即当投入更大规模的算力和数据后,模型效果就会越来越好。“但到目前为止,拐点都还没有出现,这也就是为什么各国都在加强AI算力建设,抢占先机的原因。”
浏览Sora的示例视频可以发现,其中与现实世界的物理规则有差距,悬空漂浮的沙滩椅、冬天盛开的樱花、果汁从完好的杯子底渗出等等。但在田丰看来,AGI要到达奇点时刻,关键是要把现实世界、人的行为甚至人和现实的交互理解清楚,但Sora目前还做不到这一点。“这其实也和Sora的训练策略相关,即一个通过视频数据学习相关性的AI,是无法理解物理世界中的因果性的。例如,大模型学习到了猫头鹰转头的视频后,就会自然觉得任何生物的脑袋都可以旋转180度,进而在数据泛化时产生误差。”
不过,Sora之所以能在各领域掀起热议,显然也有其独创性。输入一段文字就能生成60秒的高质量视频只是表象,其对行业产生的变革意义主要在于对数据标注的创新。
“在Sora出现之前,行业中很多多模态大模型制作视频的解决方案都不好用,主要是因为可用于学习的视频缺少高精度的数据标注。”田丰认为,随着OpenAI用新技术将图片、视频生成文字作为提示词,并用于精准的视频描述后情况就改变了。“一般而言,对AI模型训练要有配对的文本和视频,OpenAI的技术创新之一是通过Dall-E模型,让每段视频生成详细精准的描述文字,进而产生了高质量的训练数据集。”
工具多,学习门槛低
AI技术已处于“iPhone时刻”
那么,当AI工具具备哪些特征时,可以反映出奇点时刻来了?田丰给出了两个评判标准。
一方面是,机器能否实现人类的归纳、推理和猜想三种思维范式。现实情况是,自神经网络出现,人工智能就已具备了归纳相关性的能力,但是深度神经网络的推理能力上还没有做到特别精准。
钱学森认为科研遵循“冰山理论”,即人们看到的公开AI技术只是“冰山一角”,水面下还有更多“隐藏创新”,所以对公众用户表现出AlphaGo、ChatGPT、Sora等“技术突变”的表象,其实国内大模型也有很大发展,较多研发技术储备处于“水面之下”。
另一方面,考察人工智能对现实世界的理解。在田丰看来,AGI通用智能到来的一个标志是,机器能够理解人类所掌握的所有知识,甚至能像人类科学家一样,利用规则推演新的理论。
“奇点时刻到来的里程碑可能就是,人工智能找到了新理论,进而证明了人类原来认知的理论规则是错误的。”田丰说,但目前,AI的发展还处于“iPhone时刻”。
所谓“iPhone时刻”,正是智能手机已经开始产业化了,但还没有变成成熟的生产力工具的阶段。在技术革新的四阶段中,处于技术革命与产业革命的中间地带。
按照钱学森的科技革新“四段论”,AI的演进过程包括科学革命、技术革命、产业革命、社会(组织)革命,技术经历了数学等基础科学高速发展的科学革命,实现了AI大模型技术产品涌现的技术革命,正在实现将AIGC在千行百业中落地,但是还没有完全形成通用型工具的产业革命期。
根据田丰的预判,目前大模型处于“技术革命”向“产业革命”过渡阶段,在未来的3到5年,AI技术将进入千行百业,成为新一代数字生产力,像云计算一样实现社会化普及。随后,AI技术还会催生对社会组织的变革。“类似于互联网演化出的平台经济,推动了传统组织模式的变革一样。”田丰说。
“现在的AI技术,就像98、99年时的互联网技术,工具很多,但还不够好用,但学习技术的门槛已经很低了。”对于普通人该如何在这场技术革命中抓住时代红利,田丰建议,应尽快去学习新的技术,积极拥抱新的技术工具箱。