以往的数字人技术,要么不够逼真,要么对输入要求太高。比如有些需要非常精细的 3D 模型,有些只能生成特定角度的视频,不够灵活。

随着 AI 技术的飞速发展,数字人正变得越来越逼真、越来越智能。近日,腾讯发布了名为 Sonic 的全新数字人技术。Sonic 最大的亮点在于,它仅需一张照片和一段音频,就能生成高度逼真的人物说话视频。然而,Sonic 并非只是简单的“换脸”或“口型对齐”,而且表情自然、口型精准,甚至还能唱 RAP!它在背后融入了诸多创新技术,才得以实现如此惊艳的效果。

Sonic 是一种 AI 技术,能够根据一张静态照片和一段声音,生成逼真的人物说话视频,而且视频中的人物表情、口型和头部动作都能与声音完美同步。Sonic 的目标就是打造一个更通用、更逼真、更灵活的数字人生成方案。

比如我们输入如上一张图,然后给模型提供一段音频,Sonic模型会自动听取音频中的内容,并根据音频内容,把图片与音频合成一段视频,其中人物的口型,表情,动作简直不要太逼真。合成的视频如下:
在深入了解 Sonic 的技术细节之前,先思考一下,一个逼真的人体动画,究竟需要具备哪些要素:
准确的口型同步: 数字人物的口型必须与音频内容完美匹配,这是最基本的要求。自然的表情变化: 人类的情感是复杂的,数字人物需要能够根据音频的情感和语境,自然地展现喜怒哀乐等各种表情。灵活的头部动作: 头部是人体最灵活的部位之一,数字人物需要能够自然地转头、点头、摇头,才能显得更加生动。长时序的稳定性: 生成较长的视频,需要保证人物的身份一致性,避免出现“变脸”等问题。
以往的数字人技术,往往难以同时兼顾以上所有要素。而 Sonic 则力求在各个方面都做到极致,打造更具“灵魂”的数字人。
Sonic 架构详解:多模态融合,全局音频感知

要理解 Sonic 的技术突破,我们首先需要了解它的整体架构。Sonic 并非简单地将音频和图像信息进行融合,而是采用了一种更精巧的设计:
多模态信息编码: Sonic 模型能够同时接收来自图像和音频的信息。对于图像,Sonic 主要提取人物的外貌特征,比如脸型、五官、发型等。对于音频,Sonic 则提取声音的语调、节奏、情感等信息。这些信息经过编码后,形成 Sonic 能够理解的向量表示。

全局音频感知模块: 这是 Sonic 的核心创新之一。Sonic 并没有像以往的技术那样,只关注音频的局部信息(比如每个音节的发音),而是更加注重理解音频的全局信息,包括:
长时序音频依赖: 通过 Context-enhanced audio learning 模块,Sonic 能够学习音频中长距离的时间依赖关系,从而更好地理解音频的上下文信息。解耦运动控制器: 通过 Motion-decoupled Controller 模块,Sonic 将头部运动和表情变化解耦,实现更精细化的控制。时序感知的运动融合: 将编码后的图像信息和全局音频信息进行融合,并使用一种叫做 "Time-aware Position Shift Fusion" 的技术,让模型能够生成时间上连贯的视频。这种方法不需要依赖额外的运动帧信息,因此能够显著降低计算复杂度。
技术创新一:Context-enhanced Audio Learning(上下文增强音频学习)
为了捕捉音频中的全局信息,Sonic 采用了 Context-enhanced Audio Learning 模块,其核心思想是:
更轻量级的音频特征提取: 使用 Whisper-Tiny 模型提取音频特征,比常用的 Wav2Vec 模型更轻量级,降低了计算负担。多尺度音频信息融合: 融合了 Whisper-Tiny 模型多层特征,从而能够捕捉到音频中不同尺度的信息。空间自适应的音频融合: 通过 Spatial Audio Attn 模块,将音频信息融合到图像的空域特征中,从而让模型能够根据音频信息来调整图像的表情。
技术创新二:Motion-decoupled Controller(运动解耦控制器)
仅仅对准口型是不够的,真实的人物动画需要丰富的头部动作和表情变化。为了实现这一目标,Sonic 采用了 Motion-decoupled Controller,其核心思想是:
解耦头部运动和表情: 将头部运动和表情变化分解为独立的控制参数,从而实现更精细化的控制。可调节的运动幅度: 允许用户手动调整头部运动和表情变化的幅度,从而实现更个性化的动画效果。音频驱动的运动预测: 通过音频驱动的方式,自动预测头部运动和表情变化的幅度,从而实现更自然的动画效果。
技术创新三:Time-aware Position Shift Fusion(时序感知的位置偏移融合)
生成长视频的关键在于保证视频的流畅性,避免出现跳帧、抖动等问题。为了实现这一目标,Sonic 采用了 Time-aware Position Shift Fusion 技术,其核心思想是:
分段处理: 将长视频分成多个片段,分别进行处理。位置偏移: 在处理每个片段时,都会考虑到它和前后片段的联系,从而保证视频的整体流畅性。循环填充: 对于视频的开头和结尾,采用循环填充的方式,保证视频的完整性。实验结果:Sonic 实力碾压

为了验证 Sonic 的效果,腾讯的研究人员进行了大量的实验。实验结果表明,Sonic 在多个指标上都超越了其他的模型,包括:
FID(Fréchet Inception Distance): 用于衡量生成图像的质量,数值越低越好。Sonic 在 FID 指标上取得了明显优势。Sync-C(Synchronization Confidence): 用于衡量口型同步的准确性,数值越高越好。Sonic 在 Sync-C 指标上也表现出色。此外,研究人员还进行了主观评估,让志愿者对生成的视频进行打分。结果表明,志愿者对 Sonic 的视频质量、流畅性、身份保持等方面都给出了很高的评价。

Sonic,让数字人触手可及
腾讯的 Sonic 技术,通过全局音频感知、运动解耦控制和时序感知的运动融合,实现了对口型、表情和动作的精准控制,让数字人变得更加逼真、自然、生动。这项技术不仅提升了数字人的观赏性,也为数字人的应用带来了更广阔的空间,有望在虚拟偶像、在线教育、智能客服等领域发挥重要作用。

值得一提的是,Sonic 技术在保证逼真度的同时,还支持对卡通人物和非人物图像进行动画处理,这意味着我们可以用这项技术,让各种各样的角色都“活”起来!
jixiaozhong.github.io/Sonic/