【眼观】AI视频大模型持续涌现，中国真的没有机会了？

顶级AI视频大模型陆续翻车，阿里竟然扳回一城？

谷歌的视频大模型Gemini 1.5 Pro前脚刚上线，Open AI的视频大模型Sora后脚便一夜刷屏，顺便抢了原本属于谷歌的风头。结果第一阶段的较量还没结束，双方便陆续翻车。

近期，外媒通过抢先实测Sora，发现其跟之前的革命性表现存在巨大差距，用“大翻车”来形容，毫不为过。有记者表示，由于对算力需求巨大，Sora生成的视频，鹦鹉、猴子傻傻分不清，而且生成的速度还巨慢。

初看视频没什么问题，但细节经不起，并且即便反复调整提示语（prompt），也难以达到完美的效果。变幻莫测的爪子，猴子嫁接鹦鹉尾巴，鹦鹉脖子忽然“卡断”等等，各种违背生物常识的事情接连出现。

另外，交叉腿、6根手指的情况也未能避免。

谷歌也好不到哪去，尽管其新发布的基础世界模型Genie，可根据合成图像、照片、草图生成动作可控的2D“游戏”世界。但低像素的“游戏”画质，距离现实还有很长的路要走。

而其另一个备受瞩目的Gemini大模型，也一言难尽。在宣传视频引发造假的争议后，Gemini又因给出具有种族偏见的反馈，遭到包括马斯克在内的诸多名人以及众多网友的怒怼。

Sora有Sora的不足，Gemini有Gemini的问题，与初亮相时的高光不同，两位头部玩家的接连翻车，多少会让其他玩家松了一口气。

而趁这个空档，不少AI玩家苦战数日后，也陆续拿出了一些惊人成果，比如PIKA。

在沉寂3个月之后，PIKA终于上新，上线了唇形同步，加上AI音频厂商的赋能，意在给AI视频融入真实发音，让生成的视频更具真实性和沉浸感。

从演示效果看，确实不错。但有抢先体验的用户表示，PIKA仍有很多可改进的空间。总的来看，人物正面的成功率较大，一旦人物转换角度，比如侧着脸，失败的概率便大幅提升。

当然，由于目前产品还处在测试阶段，有各种各样的翻车表现也是可以理解的。PIKA在模拟真实人物发音方面还有很长的路要走，不过量变总会慢慢引起质变。

除了PIKA，以色列初创公司Lightricks也于近日推出一款生成式AI电影制作平台—LTX Studio。这款软件的推出，让人人皆可制作电影的梦想更进了一步。

据悉，只需要输入相应文本，就能生成超过25秒的微电影视频，同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制——简直有颠覆整个电影工业体系的架势。

从内容展示看，这款软件无疑更具革命性。但碍于时长限制，依然存在迭代的空间。

LTX Studio 3月27日将开启第一批测试，实际成色几何，我们不妨持续关注。

国内这边，AI视频大模型似乎确实慢了不止一拍，但好在也不是集体沉默。比如最近，阿里发布的AI大模型EMO（Emote Portrait Alive）便在网上引起一阵骚动。

仅需一张人物肖像照片和音频，EMO就可以让照片中的人物开口唱歌或说话，口型的吻合度很高，面部表情和姿势也很自然，并且视频时长的自由度也很高。

如果说之前的Animate Anyone只是小试牛刀，那么这次阿里便结结实实的让外界刮目相看了。

EMO的思路和PIKA异曲同工，从视频效果看，其自然程度较PIKA有过之而无不及，这多少可以让我们国人在AI大模型界挺直腰杆。

PIKA在人物侧脸方面已经表现出一些不如人意的地方，EMO会不会有同样的问题，我们不得而知。鉴于目前EMO尚在技术报告阶段，普通人暂时无法亲测体验，对其真实表现我们还是要保持谨慎期待。

Sora的热度和影响持续蔓延，在靴子落地之前，其他玩家仍有不少机会。只是，面对AI市场竞争提速，留给其他玩家的时间窗口越来越小。

反倒是百度、阿里、苹果等有一些基础的互联网大玩家，有机会在未来的AI市场竞争格局中占有一席之地。当然，这个可能性也是相对的。一来需要有差异化优势，二来考验占领市场的先机。

随着资本市场看衰类Sora的项目，大玩家反而有了更多挑肥拣瘦、瓜分市场的机会。而此时，也是大玩家收购有潜力小玩家的绝佳契机。

结语：

谷歌和Open AI的翻车似乎可以让我们人类稍微松一口气——原来所谓的最强AI不过如此，距离现实还差的很远。

但正如笔者之前所言，这种“长舒一口气，然后继续蒙头大睡”的做法其实是最不可取的。AI正在你看不见的地方，疯狂生长，超越人类不过是时间问题。

而这个时间看似漫长，却不过是眨眼之间。