北京时间10月4日晚间,Facebook母公司Meta首次对外展示Meta Movie Gen模型,Meta称之为“迄今为止最先进的媒体基础模型”。

Movie Gen模型可以根据文本提示词制作最长16秒的新视频。它还可以使用此类提示词为现有视频生成音频或对其进行编辑,甚至可以使用照片制作真人定制视频。
目前,Movie Gen仅供部分内部员工和少数外部合作伙伴(包括一些电影制片人)使用,但计划在明年某个时候将该产品纳入其现有应用程序中。
Meta负责生成式AI产品的副总裁Connor Hayes表示,高管们仍在讨论如何最好地实现这一整合,但Movie Gen的目标是鼓励更多人创建或编辑视频帖子。
他说,它“使用起来很有趣,对创作者很有帮助,有利于提高应用程序的整体参与度,但目前我们还没有具体的产品计划”。
Meta人工智能团队在X上表示,我们对这一研究方向的潜力感到兴奋,它将为业余创作者和专业创意人士带来全新的可能性。

模型基本信息
Movie Gen模型分为两个模型,其中包括:
Movie Gen Video:300亿参数的transformer模型,能够从单个文本提示词生成高质量和高清晰度的图像和视频。
Movie Gen Audio:130亿参数的transformer模型,可以接受视频输入以及可选的文本词提示来控制,生成与视频同步的高保真音频。它可以生成环境声音、器乐背景音乐和配音效果 —— 在音频质量、视频到音频的对齐以及文本到音频的对齐方面都达到了最先进的水平。
利用Movie Gen模型,还可以做的工作,包括:
精确视频编辑:使用生成的或现有的视频以及相应的文本指令作为输入,它可以执行局部编辑,如添加、移除或替换元素 —— 或全局变更,如背景或风格的改变。
个性化视频:使用一个人的图像和文本提示,该模型可以生成视频,在角色保真度和视频中的自然动作方面达到了最先进的水平。
模型效果怎样?
Movie Gen是多模态模型,很自然大家会想到,它跟此前发布的Sora、Runway Gen3、Kling等文生视频相比的效果。
在介绍论文中,Meta人工智能团队也公布了一些对比结果。比如,输入相同的提示词,看看最终生成的视频效果截图。


从Meta团队自测的结果来看,Movie Gen在文本到视频生成方面表现出色,超越了 Runway Gen3、LumaLabs、OpenAI Sora和Kling1.5等现有模型。

Movie Gen模型的优势在于能够生成高质量、逼真的视频,其运动自然,并与文本提示很好地对齐。然而,MovieGen也存在一些局限性,比如Movie Gen在处理包含大量运动的提示时,在运动完整性方面不如Kling1.5。
不过总体来看,MovieGen代表了文本到视频生成领域的重大进步,在多个评估指标上都优于现有模型。虽然仍存在改进空间,但其生成高质量、逼真视频的能力使其配得上“迄今为止最先进的媒体基础模型”。
更多可以学习:https://ai.meta.com/static-resource/movie-gen-research-paper