智能驾驶的又一变革节点：大模型之战后，谁能做出中国版Sora？

Sora火了。OpenAI公布了一组由Sora生成的Demo视频，其效果之逼真，细节之丰富，还是在互联网世界引发了巨浪。这也意味着，一句简单的提示词，就能够生成以往可能需要一个专业团队才能制作的视频。

从最近爆火的李一舟的AI课再到各路“普通人用Sora赚钱的10种办法”“99.9元给自己的未来一个机会”等等，哪怕目前Sora只发布了多个演示视频和技术指导，绝大多数人至今都没用上这款前沿应用，但也阻挡不了大家对人工智能改造影像世界的期待。

2023年初，在OpenAI发布ChatGPT将近两个月之后，百度很快推出了中国第一款生成式人工智能大模型，随后，各路厂商纷纷入局，整个2023年成为生成式AI元年，沉寂已久的中国AI战场掀起了一场百模大战。

一年之后，OpenAI再度放出一记王炸。这一次，中国市场反应最快的是360集团的周鸿祎，不过，他只是暂时在视频号上表达了他的震撼：“一旦人工智能接上摄像头……对世界的理解将远远超过文字学习。比如人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。”

周鸿祎说，这次Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，“它展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。”当然不用周鸿祎多说，但凡是看了Sora视频的人，都会相信，一个新的时代要来了。因为这意味着AI对于人类世界的理解更进了一步。如果说ChatGPT是纸质地图的话，Sora能够实现的，就是全息影像导航了。

Sora技术是由OpenAI开发的一种基于分布式训练的AI模型训练框架。ChatGPT是单一模态语言模型的典型代表。大语言模型是借助Token Embedding思路，在大量文本数据基础上将人类语言解码生成机器语言，随后通过结构化的深度学习之后，重新计算组合，并翻译成人类可以理解的语言，而Sora则是标准意义上的多模态大模型代表。

它允许研究者和开发者在多个节点上并行训练AI模型，将AI模型的训练任务拆分成多个子任务，并在多个节点上并行执行。从OpenAI Sora官方公布的论文来看，其原理事实上就是在以往文字、图片的基础上进一步增加多维度的计算任务。这也意味着对更高性能的芯片和更庞大的算力提出更严苛且昂贵的要求。

同样以AI应用最为广泛的自动驾驶场景为例，以前的AI可能只能理解数据库中的导航数据并做出决策；但这一次，Sora意味着，人工智能对于影像的理解正在出现一次根本性的飞跃——它不再需要把影像翻译成文字或者数据，它已经能够充分理解影像的意义。这也让L4级的自动驾驶技术落地增加了新的可能。

但一个关键问题也随之诞生：这一次，中国版本的Sora，或者说中国市场上第一个有能力做文生视频的公司，会是谁？

从去年百模大战的表现来看，从研发实力到数据量和应用场景来看，最具有可能性的应该是如下这五家。

百度

作为文生文时代大模型的一号位，百度当然必须在这一排名中拥有位置。

大模型巨浪滔天，早已在2019年就已布局大模型技术的百度，顺势在2023年占据C位，回顾整个2023年，百度所有重点工作、内部的系列变革，都是围绕AI这个关键词进行的。文心一言的推出，也让百度在2023年隐隐有重回互联网一线大厂的趋势。

其实算起来，百度的AI布局，在中国互联网大厂中无疑算是较早的那一拨。从2013年布局深度学习技术算起，百度进军AI刚好10个年头。其间在陆奇执掌百度时，还提出过“all in AI”的重大战略调整。

而且，百度本身算得上是拥有AI的基因。搜索业务意味着大量数据沉淀，使得这一类公司天然地具有投入AI的优势。从目前全球范围来看，唯一能够与OpenAI叫板的，也就只有谷歌的Gemini了。

更为重要的是，百度其实也拥有AI的一个关键应用场景——自动驾驶。百度自2013年就投入自动驾驶研发，2015年起正式成立L4事业部以来，每年的研发投入就不低于100亿。近期有机构就认为，Sora的成功以及其背后展现出的涌现能力可能为计算机视觉领域的研究提供了一个明确的方向，成为未来视频与模拟领域（例如自动驾驶）的统一范式。

而目前在一众互联网公司中，在自动驾驶领域耕耘最久的，就是百度。

此外，百度的决心显得更为强烈。与腾讯、阿里、字节、快手等公司更多将AIGC作为一个创新业务来看待不同，百度明确要求，全公司各个业务条线都尝试用AI进行重构。

在2023年的百度世界大会上，李彦宏“手把手教你做AI原生应用”，发布文心大模型4.0、讲解大模型四大核心能力、展示十余款百度的AI原生应用，这些成果背后是百度在人工智能领域十年的积累。

无论是从李彦宏的态度还是从百度的能力禀赋来看，百度应该是最具有可能性推出文生视频的那一批。

字节

近期另一家传出可能性的，是字节跳动。

2月20日有消息称，在Sora引爆“文生视频”赛道前，字节跳动也推出了一款创新性视频模型Boximator。与Gen-2、Pink1.0等模型不同的是，Boximator可以通过文本精准控制生成视频中人物或物体的动作。

不过，字节跳动方面否认了其会是“中国版Sora”。据字节方面称，Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

但即便如此，字节跳动背后的抖音和tiktok，却是被认为最先可能受到Sora冲击的市场应用。一篇报道称，多位业内人士指出，以目前Sora生成视频的长度来看，它的到来最先会冲击到短视频领域。一旦大范围推广，Sora将大大降低短视频创作门槛，丰富短视频平台的内容供给，但随之而来的问题是，AI生成内容的增多可能会影响平台的内容生态，同时Sora还会和剪映、快影等工具抢夺用户。

如今我们回过头再看年前的一则消息，会感受到字节跳动内部的AI焦虑。

2月7日，抖音集团CEO张楠宣布自己已经辞去集团CEO一职，未来将把精力聚焦在剪映的发展上。当时引发市场哗然，毕竟，作为抖音的一个延伸工具产品，剪映的体量和规模，和抖音完全不在一个量级上。张楠的工作出现这种变化，难道是字节内部组织发生大的变化？

事实证明，张一鸣是有远见的。张楠的是带领抖音一步步走向成功的关键战将。而如今，字节跳动的最大战场，正在于AI。

而从这个角度来说，剪映大概率是字节内部判断的最有可能把AI应用跑出来的产品。

阿里

在全球第四的阿里云加持下，阿里无论是从高端智能芯片的拥有量还是从算法、数据来看，阿里的能力毋庸讳言。在去年百度推出文心一言之后，很快阿里就推出了通义千问，且表现出色。

而很多人没有注意到的是，在今年1月中下旬，通义千问最新升级的视觉语言大模型 Qwen-VL-Max 正式发布，这款大模型在多个测评基准上取得了好成绩，并实现了强大的图像理解的能力。

在 Qwen-VL-Plus 发布后，国内也有人拿 Gemini 演示视频里的问题对它进行了测试，发现所有问题 Qwen-VL-Plus 完全都能回答上来。也就是说，在图片和视频的影响理解上，阿里的通义千问是具备一定的竞争力的。

事实上，通义千问的视觉理解大模型已经经历了几轮迭代。早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一个版本，并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了「看」世界的能力。

但从理解图片和视频，到生成图片和视频，中间依然还存在巨大的鸿沟需要跨越。

附上最近通义千问的一个小八卦。2月22日，一张阿里云通义千问研究员的工作日程在网上流出，显示该员工从早上九点起开始忙碌至晚上十点，随后又在凌晨叫醒同事讨论新想法。网传图片显示的作息规律与流出的Sora一线研究员高度相似。因此，业界传言阿里云通义千问效仿Sora一线员工作息，强化工作强度。

尽管对于这一问题阿里云方面很快辟谣称，“假的，绝对不可能有这样的事。”但由此也可见，通义千问一定存在着对标中国版Sora的压力。

腾讯

其实，在列完前三个之后，再列第四和第五，已经是一件相对比较困难的事情。一方面，中国存在一批能力不错的独立AI厂商比如王小川的百川智能、张鹏的智谱AI等，加上还有曾经的AI四小龙商汤、云从等，因此，后面的排名其实更多是供参考。

但是之所以把文生文大模型才发布没多久的腾讯列在这个位置，主要还是考虑到一个问题：具有AI的研发能力和具有AI的落地应用能力，是两码事。而腾讯的最大优势就在于，极为丰富的应用场景和海量的数据；更为重要的是，作为中国互联网公司塔尖上的厂商，腾讯的视频、影业同样是其业务的重要组成板块，其大力布局AI只是时间问题。

最新的消息是，2月22日，腾讯会议上线了基于混元大模型的AI小助手。根据官网介绍，腾讯会议AI小助手可以覆盖会议全流程，通过简单自然的指令，完成信息提取、内容分析、智能提醒等多种复杂任务，提升开会和信息流转效率。

腾讯会议的体量如何，只要是在写字楼打过工的人应该都有体会。而腾讯所拥有的这种覆盖量能力，是前面三者都可能很难以企及的。

而且能够明显看出，腾讯的AI战略和其他厂商不同——它有自己的节奏。相比去年上半年百模大战一拥而上，腾讯直到三季度才姗姗来迟地发布了混元大模型。而且在财报电话会上，马化腾对于AI的发展战略也呈现出不愿意凑热闹的态度。

事实上，在2023年，AI也远没有看到产生大规模商业化回报的可能性。技术还在探索之中，而擅长技术落地应用的腾讯，应该还在等待一个关键时机。只是，这个时机是否是Sora，还是个未知数。

科大讯飞

如果说前面列的四个更多是传统互联网巨头，那么作为一个需要海量资金投入的行业，国家队也必须拥有姓名。能够作为国家队代表的，应该就是科大讯飞了。

早在2011年，讯飞便承建了语音及语言信息处理国家工程实验室，提出让机器像人一样能听会说；2014年，讯飞推出“讯飞超脑计划”，提出让机器像人一样能理解会思考，2022年又将其升级为“讯飞超脑2030计划”。算力方面，科大讯飞还联手华为，让大模型建立在安全可控的国产算力平台之上；讯飞开放平台目前已开放560项AI能力，并聚集超过500万生态合作伙伴。

但科大讯飞之所以会被列在这一可能性名单中还有很重要的一个原因是，科大讯飞在过去的语音识别领域，确实积累了丰富的经验。原研技术固然很重要，但数据的训练、应用场景的迭代同样不可或缺。

从科大讯飞过往的优势业务来看，在教育方面，讯飞星火认知大模型+AI学习机让AI像老师一样批改作文；办公方面，大模型+讯飞听见，能够实现录音一键成稿，一分钟输出流畅会议文案，大模型+智能办公本能够根据手写要点自动生成会议纪要。这些场景的积累加上背后来自国家队的人才和资金以及算力的支持，使得科大讯飞应该是有能力掌握进入文生视频领域的一张门票。

不过，相比去年ChatGPT发布之后，中国科技厂商随即纷纷摩拳擦掌要大干一场，2024年由Sora所引发的新浪潮，这一次似乎没有去年那么大的动静。这一次有可能是大家都变得更谨慎，但更大的原因我相信是，相比ChatGPT，Sora的门槛大大提高了。

由此也可见，生成式AI的全球竞争，正在驶入拉开关键差距的深水区。

世良情感网

智能驾驶的又一变革节点：大模型之战后，谁能做出中国版Sora？

明镜点评车