试了阿里通义万相AI生视频,我觉得大厂们值得期待

知危 2024-09-20 10:42:47

今天下午,在云栖大会上,阿里云 CTO 周靖人宣布通义万相全面升级,并发布全新视频生成模型,通义万相正式杀入AI视频战场。

所以,咱也就是说,隔壁的 Sora 大厨还不上菜,大家可就得吃饱咯。

这次阿里带来的通义万相,用上了业界领先的核心架构——Diffusion+Transformer,可以生成影视级高清视频。

他们还和知名说唱歌手宝石 Gem 合作,用通义万相AI 生视频参与制作,直接给《 江雪 》整上了一个赛博国风的 MV 。

更重要的是,生成视频功能在通义万相官网以及通义 App 上都可以免费体验。

如果从发布前的一些宣传上来看,我们能猜测到通义的主要优势应该集中在国风上。

于是,在第一时间,我们就搞到了资格,想试试阿里的手艺。

为了看看通义万相的功力,我们也请来了其他两位国产视频生成大模型产品同台竞技。

我们使用了 3 个不同的提示词,分别测试这些模型生成视频的不同维度的能力。

提示词 ①:日照香炉生紫烟。

模型 A 和模型 B 都只是做到了照本宣科,真给了一个太阳照香炉,生成一阵紫色烟雾。

没能 get 到这句中国古诗句中 “ 香炉 ” 其实指的是 “ 香炉峰 ”,并不是真正的香炉。

模型 A 生成的视频里,紫烟的动态很丝滑,香炉也更像个香炉;而模型 B 的视频里,香炉成了个大盘子,生成的紫烟还出现了褪色。

而模型 C 是唯一一个理解了提示词意境画出了一幅中国水墨画的,就冲这一手就得点个大大的赞了。

而且,我们仔细看了下,整体画面基本挑不出太大毛病,甚至让我觉得好像黄山的风景。

提示词 ②:江南水乡小镇,清晨的阳光透过薄雾,照亮了石桥和白墙黑瓦,水面波光粼粼,几只小船停泊在岸边。

模型 A 的视频整体有些偏脏,虽然清晨的感觉有了,但整体灰蒙蒙的,给人一种雾霾很严重的感觉,而且由于画质的原因,整体画面的细节几乎都看不清。

但你仔细凑近了瞧,就能发现桥中间有些 “ AI 特色 ” 的畸形,两边房屋也有些奇怪的变形。

模型 B 的视频就很强了,整体画面看起来很真实,它是 3 个模型里,唯一一个做到了只出阳光却不出太阳的,看起来就很高级,氛围营造一下就拉满了,整体画面质感也是 3 个视频里最好的。

硬要挑毛病,画面里的雾气过渡不是很自然,桥面栏杆也挤到一起,并不合常理。

模型 C 的视频整体看下来也没太大毛病,就是阳光更像是夕阳而非朝阳的味道了。

而且它的风格显然和前面两个对手不大一样,有一种黏土动画的感觉。

如果不是故意设置这个画风的话,整个画面就过于干净整洁,反而少了点真实感。

提示词 ③:一位身穿淡雅汉服的女子正沿河边款款散步,她的步伐轻盈,仿佛每一步都踏着古筝悠扬的旋律,手中摇曳着一把精美的油纸伞,上面绘有细腻的花卉图案,色彩鲜艳而不失柔和,每一笔都透露出画师的心思与技艺。河边古朴的中式茶楼,这些茶楼多为木质结构,白墙灰瓦,房檐挂着一只只大红灯笼,雨滴滴落在河水里振起层层涟漪,在水面上激起层层波纹,形成一幅生动的水墨画卷。

模型 A 的视频画面布局挺不错的,人物运动状态也很贴近现实,但一眼就能看出人物的脸整个垮掉,类似的问题也发生在了手上,而且人物直接练了手轻功水上漂。

不仅如此,在这次要素比较多、较为复杂的提示词里,模型 A 显然漏掉了 “ 雨滴滴落在河水里振起层层涟漪 ” 的画面。

模型 B 的视频氛围营造得不错,但和上一个类似,人物直接走在了水里,手部细节也出现了畸变,甚至油纸伞都有些奇怪的变形,茶楼的造型更看着破旧不堪,完全没有茶楼的感觉。

而且它也漏掉了提示词中的要素,虽然有了河水涟漪,但画面里一滴雨都没有。

模型 C 的视频是唯一一个展现了 “ 雨滴滴落在河水里振起层层涟漪 ” 的画面,所以在整体要素上基本都齐全了,甚至连手画的都比前两位好。

而且,它还相当聪明,我们的提示词里没有提到人物面部细节,它干脆也就不生成了,直接来了一出手持油纸伞半遮面的效果。

到了揭晓答案的时候,上面测试里:

模型 A 出自某短视频大厂,它比较擅长控制运动细节;

模型 B 出自某大模型新锐厂商,擅长把控画面的色彩和美学,塑造足够的氛围感和真实感;

而模型 C 就是今天刚推出的通义万相了,它能保证氛围营造和动态完整性,达到目前的第一梯队水平,在复杂提示词的准确性和中国味儿上还能做到更强。

从我们更多没放出的测试来看,在文生视频这块,通义万相最出色的特点就是 “ 最听话 ”,基本能很好地理解我们给到的长文本、复杂提示词,把我们想要的关键要素都完整地表达出来。

也是凭借这个能力,在使用生成过程中,我们也试用了它自带的 “ 灵感扩写 ” 功能。

我们发现它和其它厂商不大一样,其他家的提示词优化,经常会改变我们想要的画面。

而通义万相扩写完成后的长提示词,基本都能很好地遵循本意,只是加入更详尽的描述,让最后生成的画面细节更丰富。

而且,通过一番测试,我们也能看出,对比其他文生视频产品,通义万相的确最懂中国风,比如几次古诗画面的生成,基本都只有它能够很好地理解古诗词的意境。

更有意思的是,通义万相生成的视频还能自动生成音频。

不仅如此,通义万相还有着同样出色的图生视频功能。

虽然图生视频相对来说比文生视频要简单些,但对一致性、想象力的要求还是很高的。

就像下面这个漂浮鲸鱼的例子。

通义万相生成的视频中,整个画面与原图能够保持高度一致,而且画面中不光鲸鱼运动轨迹合理,下方人物和船只也都有着很不错的动态表现。

当然,我们也发现通义万相没能突破行业的一些通病,比如在一些运动场景下,偶尔会出现不合常理的画面以及离谱物理效果,这也是整个 AI 视频行业急需攻克的难题。

但总的来说,瑕不掩瑜,在我们看来,通义万相势必会成为本就竞争激烈的 AI 视频战场里的一个强有力的竞争者。

仔细想想,虽然 7 个月过去了,Sora 依旧没能真正问世,但行业的竞争丝毫没有减速。

大家从时长、生成质量、生成速度等等方面不断开卷,有当年 AlphaGo 和自己对弈,几天就进化一个版本那味儿了。

今天之所以大家疯狂卷 AI 视频,知危编辑部认为,关键在于这个方向的饼着实够大。

从目前来看,广告公司、企业、媒体甚至每个人都能利用这个技术快速、廉价地制作视频。

哪怕就是眼下,AI 视频需要不断调教、重复几百次才能得到一个让人比较满意的画面,但相较于真人拍摄所需要的时间、成本来说,都还是相当合算的。

根据东吴证券的测算,光是国内 AI 视频潜在行业空间就可能达到 5800 亿元人民币以上。

就拿影视剧制作来说,2018 年,电视剧、电视动画片平均投资成本为 7519 万元/部、686 万元/部;电影的制作成本( 不含宣发 )为 2300 万元~1.7 亿元/部。

而全 AI 模式下,电影、长剧、动画片的制作成本分别为 2.5 / 9.3 / 3.7 万元人民币,相较于传统模式成本降低幅度能超过 95% 。

所以业内目前普遍认为,当下正是 AI 视频从 “ 玩具 ” 迭代升级为“生产力工具”的关键时刻。

而在这轮视频生成技术竞赛中,互联网大厂很可能会是主要的引领者之一。

所以在听到通义万相才发布时,我们第一反应是会不会有点晚,后来才了解到,原来通义万相 AI 视频,用的是阿里团队全自研视觉生成大模型。

它在模型框架、训练数据、标注方式和产品设计上,具备了业界领先的生产能力,所以也许印了那句古话,好饭不怕晚。

而且,从另一方面看,主流大厂们好像集体在文生视频模型里憋大招,大家伙都不约而同地把 AI 视频定义为 P0 项目,甚至有些直接让 CEO 挂帅。

但至今为止,不断冲锋的反而是那些此前被忽视的新锐厂商,从这个角度来看,阿里还真就是大厂里脚步最快的。

咱们也大胆地预测一波,在这次阿里的通义万相发布后,一大批互联网大厂们的 AI 视频潮恐怕马上就要来了。

0 阅读:3

知危

简介:提供敏锐、独到的商业信息与参考