虽然Runway、NVIDIA公司借助AI模型,通过图片与声音样本实现人像唇部音频同步和头部运动技术,但实际动态图像质量和逼真度还需提升。而近日微软展示了名为VASA-1的AI模型,只要接受一张人像照片+一段声音样本,就可创建一个鲜活的会说话的人脸视频,甚至还包括唇语同步,面部情绪表达及头部动作。
微软表示,VASA-1是一个新的框架,目的是创建栩栩如生的人脸视频,应用场景可用于虚拟人物的动画制作。示例中的所有人物都是合成的,是借助 DALL-E 制作生成的。
VASA-1模型还具有很强的控制能力,提供的图片无需正面平视前方的视角就可生成相应动态视频。还可将图片中人物眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。
作为商业前景来看,最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的AI NPC,就能让玩家更好感受游戏沉浸感。它还可用于为社交媒体视频创建虚拟化身,基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌,就能制作出更逼真的音乐视频。
不过可惜的是,该模型目前只是研究预览版,除微软研究团队以外的任何人都无法试用。不过,对于了解过该AI模型的人都会记忆深刻,期待不久将来可以进入大众的应用视野。