蓝鲸新闻6月18日讯(记者朱俊熹)在OpenAI于今年2月推出里程碑式的Sora模型后,视频生成赛道便涌入了众多选手,变得热闹起来。一些早已布局AI视频生成的企业反而显得沉寂,曾一度火热的美国初创企业Runway终于再次出山,时隔大半年后公布了新的视频生成大模型进展。
6月17日,Runway推出了全新的视频生成模型Gen-3Alpha,支持生成时长10秒的高逼真视频。其联合创始人AnastasisGermanidis向媒体表示,新版本的模型在生成时间上明显快于上一代Gen-2模型,生成一段5秒的视频需要45秒,而生成10秒的视频则需要90秒。据官方介绍,Gen-3只是Runway即将推出的一系列新模型中的第一个,并且是其中最小的。
Runway成立于2018年,是AI视频生成领域的先行者。2023年2月,Runway发布了第一代AI视频编辑模型Gen-1,能够基于已有的视频素材进行风格的转换。一个月后,Runway推出第二代视频生成模型Gen-2,在多次更新后支持通过文字和图像生成最长18秒的视频。但OpenAI旗下的Sora在2024年初一经发布,便凭借60秒的生成视频时长和逼真的视觉效果远远甩开了和Gen-2等模型的距离。
虽然效果震撼,但Sora目前仍处于“期货”状态,仅向少数艺术家和开发者开放,预计到今年年底才对外发布。而Runway表示,Gen-3将在未来几天内面向订阅用户推出,包括企业客户和参与其创意合作伙伴计划的创作者。
Runway主打为电影和图像内容创作者提供生成式AI工具,曾参与奥斯卡最佳影片《瞬息全宇宙》的幕后制作。最新发布的Gen-3模型除了延续上一代模型具有的运动画笔、相机控制、导演模式等专业功能,还将推出新的工具,在内容创作上达到更为精细和便捷的效果。其背后的训练团队由研究科学家、工程师和艺术家组成,能够诠释各种风格和电影术语。
Sora同样注重与视觉艺术家、电影制作人等群体的合作,但这些专业人士的反馈却没有那么理想。据媒体此前报道,一些尝试用Sora制作视频的团队表示,Sora对摄影术语的理解有限,在素材处理、后期等制作过程中仍需要大量的人工指导。
如果此前视频生成模型还会出现椅子在空中漂浮、四脚蚂蚁等违背物理定律的错误,新一代模型则更注重模拟真实世界的特性。以Runway发布的演示视频为例,在一列高速行驶的火车窗户里,映出了一位女性的倒影,窗户后是快速变幻的夜景灯光。
国内方面,快手旗下近期热度较高的视频生成大模型可灵在这一技术上也取得了进步,主推能够生成符合物理规律的视频。可灵大模型可以模拟光影反射、流体运动、与物理世界的交互等过程,在生成的一段“小男孩吃汉堡”的视频中,随着咬下的动作,汉堡会出现缺口并一直保持。
除快手外,国内一些头部大厂和初创企业也陆续公布了视频生成模型的进展。AI企业生数科技在4月发布了性能对标Sora的视频大模型Vidu,并于近日完成数亿元的Pre-A轮融资。在国外,Runway的竞争对手、同为初创企业的LumaAI在6月13日宣布,将其视频生成大模型“DreamMachine”面向用户免费开放测试,支持在120秒内生成时长为5秒的视频。