新AI模型：仅一张图片+声音样本就=会说话的人脸视频

虽然Runway、NVIDIA公司借助AI模型，通过图片与声音样本实现人像唇部音频同步和头部运动技术，但实际动态图像质量和逼真度还需提升。而近日微软展示了名为VASA-1的AI模型，只要接受一张人像照片+一段声音样本，就可创建一个鲜活的会说话的人脸视频，甚至还包括唇语同步，面部情绪表达及头部动作。

微软表示，VASA-1是一个新的框架，目的是创建栩栩如生的人脸视频，应用场景可用于虚拟人物的动画制作。示例中的所有人物都是合成的，是借助 DALL-E 制作生成的。

VASA-1模型还具有很强的控制能力，提供的图片无需正面平视前方的视角就可生成相应动态视频。还可将图片中人物眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。

作为商业前景来看，最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的AI NPC，就能让玩家更好感受游戏沉浸感。它还可用于为社交媒体视频创建虚拟化身，基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。

不过可惜的是，该模型目前只是研究预览版，除微软研究团队以外的任何人都无法试用。不过，对于了解过该AI模型的人都会记忆深刻，期待不久将来可以进入大众的应用视野。

世良情感网