顶级AI视频大模型陆续翻车,阿里竟然扳回一城?
谷歌的视频大模型Gemini 1.5 Pro前脚刚上线,Open AI的视频大模型Sora后脚便一夜刷屏,顺便抢了原本属于谷歌的风头。结果第一阶段的较量还没结束,双方便陆续翻车。
近期,外媒通过抢先实测Sora,发现其跟之前的革命性表现存在巨大差距,用“大翻车”来形容,毫不为过。有记者表示,由于对算力需求巨大,Sora生成的视频,鹦鹉、猴子傻傻分不清,而且生成的速度还巨慢。
初看视频没什么问题,但细节经不起,并且即便反复调整提示语(prompt),也难以达到完美的效果。变幻莫测的爪子,猴子嫁接鹦鹉尾巴,鹦鹉脖子忽然“卡断”等等,各种违背生物常识的事情接连出现。
另外,交叉腿、6根手指的情况也未能避免。
谷歌也好不到哪去,尽管其新发布的基础世界模型Genie,可根据合成图像、照片、草图生成动作可控的2D“游戏”世界。但低像素的“游戏”画质,距离现实还有很长的路要走。
而其另一个备受瞩目的Gemini大模型,也一言难尽。在宣传视频引发造假的争议后,Gemini又因给出具有种族偏见的反馈,遭到包括马斯克在内的诸多名人以及众多网友的怒怼。
Sora有Sora的不足,Gemini有Gemini的问题,与初亮相时的高光不同,两位头部玩家的接连翻车,多少会让其他玩家松了一口气。
而趁这个空档,不少AI玩家苦战数日后,也陆续拿出了一些惊人成果,比如PIKA。
在沉寂3个月之后,PIKA终于上新,上线了唇形同步,加上AI音频厂商的赋能,意在给AI视频融入真实发音,让生成的视频更具真实性和沉浸感。
从演示效果看,确实不错。但有抢先体验的用户表示,PIKA仍有很多可改进的空间。总的来看,人物正面的成功率较大,一旦人物转换角度,比如侧着脸,失败的概率便大幅提升。
当然,由于目前产品还处在测试阶段,有各种各样的翻车表现也是可以理解的。PIKA在模拟真实人物发音方面还有很长的路要走,不过量变总会慢慢引起质变。
除了PIKA,以色列初创公司Lightricks也于近日推出一款生成式AI电影制作平台—LTX Studio。这款软件的推出,让人人皆可制作电影的梦想更进了一步。
据悉,只需要输入相应文本,就能生成超过25秒的微电影视频,同时可对镜头切换、角色、场景一致性、摄像机、灯光等进行可视化精准控制——简直有颠覆整个电影工业体系的架势。
从内容展示看,这款软件无疑更具革命性。但碍于时长限制,依然存在迭代的空间。
LTX Studio 3月27日将开启第一批测试,实际成色几何,我们不妨持续关注。
国内这边,AI视频大模型似乎确实慢了不止一拍,但好在也不是集体沉默。比如最近,阿里发布的AI大模型EMO(Emote Portrait Alive)便在网上引起一阵骚动。
仅需一张人物肖像照片和音频,EMO就可以让照片中的人物开口唱歌或说话,口型的吻合度很高,面部表情和姿势也很自然,并且视频时长的自由度也很高。
如果说之前的Animate Anyone只是小试牛刀,那么这次阿里便结结实实的让外界刮目相看了。
EMO的思路和PIKA异曲同工,从视频效果看,其自然程度较PIKA有过之而无不及,这多少可以让我们国人在AI大模型界挺直腰杆。
PIKA在人物侧脸方面已经表现出一些不如人意的地方,EMO会不会有同样的问题,我们不得而知。鉴于目前EMO尚在技术报告阶段,普通人暂时无法亲测体验,对其真实表现我们还是要保持谨慎期待。
Sora的热度和影响持续蔓延,在靴子落地之前,其他玩家仍有不少机会。只是,面对AI市场竞争提速,留给其他玩家的时间窗口越来越小。
反倒是百度、阿里、苹果等有一些基础的互联网大玩家,有机会在未来的AI市场竞争格局中占有一席之地。当然,这个可能性也是相对的。一来需要有差异化优势,二来考验占领市场的先机。
随着资本市场看衰类Sora的项目,大玩家反而有了更多挑肥拣瘦、瓜分市场的机会。而此时,也是大玩家收购有潜力小玩家的绝佳契机。
结语:
谷歌和Open AI的翻车似乎可以让我们人类稍微松一口气——原来所谓的最强AI不过如此,距离现实还差的很远。
但正如笔者之前所言,这种“长舒一口气,然后继续蒙头大睡”的做法其实是最不可取的。AI正在你看不见的地方,疯狂生长,超越人类不过是时间问题。
而这个时间看似漫长,却不过是眨眼之间。