陈琦：OpenAI又祭出大杀器，来自Sora的降维打击

埃森哲咨询公司于1月发布了报告《2024技术展望—AI拐点重塑人类潜力》，报告梳理了2024年的四大技术趋势，分别是AI伙伴、智能体、空间计算、人机互通。

2月2日，苹果正式发售Vision Pro，空间计算时代加速到来。2月15日，Open AI发布了第一款文生视频模型Sora，通用人工智能（AGC）加速到来。两者都是引领时代、具有颠覆性意义的现象级产品，进一步拉开了中美AI的差距。

Sora是继文本模型ChatGPT、图像模型Dall-E大杀四方后，OpenAI继续祭出大杀器——Sora，这回他们选择颠覆视频领域。这是一个历史性的里程碑，在视觉领域实现了与大语言模型类似的突破，带来了一次大的技术与商业革命。

其实，从2022年下半年开始，Midjourney、Stable Diffusion之类的应用已经可以根据文本提示词生成对应的图片了。在2023年9月，GPT 4.0和DALLE 3结合，也让我们能够用聊天化的方式生成、修改图片。在这次的Sora发布之前，也已经有一些视频生成AI，比如Pika、Stable video、RunwayML等等。但与Sora相比，其他模型生成的视频在很多方面都要弱很多。

受制于AI文本到视频生成的物理和时空推理局限，目前整个行业中所公布的单个连贯性视频的最大长度是16秒，但此次Sora的最大支持长度是60秒。此前AI生成视频产品都是单镜头单生成，由Sora所生成的视频，能够在保持主体一致性的前提下实现多角度镜头无缝切换，整个画面干净流畅，从而实现真正的视频大片效果。

Sora是一个基于扩散模型的视频模型，基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过GPT的能力，使模型更加准确地遵循用户的文本指令生成视频。对现实世界有了更深刻的理解和互动能力，具有了世界模型的雏形。OpenAI最终想做的，其实不是一个“文生视频”的工具，而是一个通用的“物理世界模拟器”，为真实世界建模。

世界模型是一种AI技术，它的目的是让机器能够像人类一样对真实世界有一个全面而准确的认知。世界模型不仅包括对事物的描述和分类，还包括对事物的关系、规律、原因和结果的理解和预测。世界模型可以让机器从数据中学习出有用的知识，并根据知识进行推理和决策。AGI是人工智能的最高境界，也是许多科学家和工程师的终极目标。

在与谷歌Gemini 1.5 Pro相继出场的舆论战中，OpenAI Sora可以说是取得了碾压式胜利。Sora无疑是人工智能领域的一次重大突破，该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力，而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。

比如现在一个电影动不动就制作成本上亿，AI会极大的降低电影成本，比如说《繁花》里，为了拍电影1:1复制重建黄河路，好莱坞电影的一个科幻片段需要耗费数百万美元，Sora正在让这些烧钱的影视制作环节变成“零成本”，甚至创作出比之前更好的作品。

尽管Sora在技术和性能表现上有了巨大的提升，它仍有不少的局限性，在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。OpenAI明确表示目前Sora的模型还并不完美，仍属于世界模型研究应用的初期，相信这些问题随着时间都能得到解决。

而相比于其自身缺陷，该技术的广泛前景更为外界所关注。近两年，由于人工智能发展迅速，以至于很多企业纷纷加大了对人工智能的投入。科技创业公司研究机构PitchBook估计，2023年全球生成式AI的市场规模将达426亿美元，2026年则将达到981亿美元，未来增长动能可期。

在新的发展阶段，生成式AI将与更多领域的技术相结合，实现更加智能化、高效化的应用。这些应用将为人们的生活和工作带来更多的便利和效益。例如，在医疗领域，生成式AI+医学知识，辅助医生进行诊断和治疗；在金融领域，生成式AI+金融数据，辅助投资者进行投资决策；在教育领域，生成式AI+学生互动，辅助教师进行教学等。

从二级市场的表现来看，最先受到Sora降维打击的是工具类公司Adobe，在Sora公布后的次日股价暴跌超7%。另外一只美股Shutterstock周五跌逾5%，市值一夜蒸发超7000万美元。公开资料显示，该公司每年销售价值约10 亿美元的照片和视频。

对于字节跳动来说，Sora的诞生将对剪映造成一定的冲击。正如周鸿祎所言，它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。剪映作为一个内容创作工具，所瞄准的正是AI创新方向，据悉即将推出一个AI生图和视频的产品，进一步拉低普通人创作视频的门槛，创造抖音、TikTok二次增长的新机会。

ChatGPT诞生之初，引发了国内互联网大厂以及众多创业公司的跟进，上演了“百模大战”，都寄希望于自己成为智能变革时代的底座。虽然积极追赶，但国内大模型产品在性能、生态等方面还与ChatGPT存在一定的差距。如今Sora的爆火诞生，必将再一次产生国内企业的跟风潮，倒逼我国AI行业继续取得重要突破。

在业内有一个普遍的市场共识，在通用大模型领域，鉴于高昂的研发资金壁垒，只有少数科技巨头有望在竞争中胜出，因为基础大模型对于需求多元的广大中小企业来说并不具备广泛适用性。

前微软美国总部及大中华区技术高管、迈吉客科技董事长伏英娜表示，OpenAI 之前的ChatGPT是利用Transformer的encoder-decoder编解码机制构建了语言的自回归模型，而图像和视频领域最有价值的Diffusion扩散模型是一种生成模型，它通过模拟随机扩散过程来生成图像数据，本质与语言的自回归是相似的但维度不同。现在Sora是Diffusion + Transformer结合的创新，视频数据压缩进向量空间中涌现的智能，不仅能够实现媲美 GAN 的图像生成质量，而且具有更好的扩展性和计算效率，所想即所见时代到来。

如果继续用这样的思路和逻辑处理不同模态的数据，相信未来会涌现出更多不可思议的智能。人类的多元智能是包含语言智能、数理逻辑智能、人际关系智能（情商、情感）以及身体运动和控制的智能，还有空间感知智能、音乐韵律节奏相关的智能，这些多元智能有些是目前AI做不到的，但如果跨越奇点真的是想象力创造未来无限可能。

OpenAI选择的是AGI（通用人工智能）造福全人类，这在中国并不现实，没有资本、市场和创新环境支撑，且AGI飞轮效应一旦形成在同一维度是不可能超越的。

反观企业级智能AEI（Evolution/Enterprise AI）和通用智能AGI同样有价值，其实通用大语言模型放在企业级场景中并不适用，使用互联网大规模数据训练是一种浪费和干扰，并且有失控和数据的风险。企业级AI没必要用千亿规模参数大模型，反而需要成本可控和边界安全、零幻觉率，针对企业自身数据类型及规模选择适合的参数量级和模态。