表情管理这门课不用学了？字节跳动新技术，上传一张图让情绪瞬间“转移”

作者 | 程茜

编辑 | 漠影

视频生成竞赛愈发激烈，但细腻、准确地传达人物面部表情细节仍然是其中的一大难点。

一般的影视作品或者日常交流中，人们说话时伴随着的面部表情变化也是准确传递信息的关键。在视频生成中，想要让人物的整体表现更加流畅自然，就需要将人物的动作、皮肤纹理、肌肉运动等细节呈现更为细腻。

这对于AI而言难度不小。近期在肖像生成方面的一项研究突破，就针对于上述难题给出了解法。

这就是字节跳动智能创作团队近期提出的X- Portrait 2单图视频驱动技术，仅需要一张静态图片和一段驱动视频，用户就可以得到高质量、电影级的视频片段。

如果我同时上传了《白银帝国》中演员金士杰的视频片段，和一张AI生成的紫发外国女生的静图，就可以让女生直接复刻电影片段的动作。

可以看到，下图中静态图和驱动视频中的人物形象区别很大，并且即使人物表情变化包含大笑、张大嘴等，X-Portrait 2最后生成的效果也完全没有被影响，只是集中于面部表情、头部动作的变化。

生动丰富的表情是塑造角色性格的关键，可以看出，当下的肖像生成技术正在向着更精细地模拟人类微观表情进阶。

一、经典镜头秒速复刻，大笑、扭头面部均不变形

细致入微的表情，往往是演员传达情绪的关键，现在这项工作也能被AI接管了。

在体验这项技术之初，我设定的初始难度是调用较少感官的表情，如只需要眨眼、大笑等，这考验的就是X- Portrait 2在生成过程中，如何让静图中的人物准确调用正确的感官，并将情绪准确传达出来。

相信很多人都对《大话西游》中紫霞仙子眨眼的镜头记忆犹新，这也被认为是很难超越的眨眼神图，如果把这个表情搬到著名表情包“金馆长”脸上呢？

可以看到，最后生成的视频中，金馆长的眼睛被放大，从抿嘴到眨眼一气呵成，面部完全没有变形，直接复刻了这一经典画面。

那如果将金馆长的经典大笑表情包放到其他人脸上呢？我利用豆包生成了一张科幻属性明显的人物图像，然后上传了金馆长从大笑到说话的视频片段。

静态图中的人物不仅模仿了金馆长的大笑神态，就连大笑时面部的皱纹、头部的轻微上下摆动动作都传递的十分到位。

考验完单一表情，再来看下进阶难度。

这一关的原视频人物说话过程中会伴随情绪的转换，例如下个视频中张译表演时的花絮片段，从刚开始说话到扭头大笑。

然后我上传了一张美国著名男演员本·阿弗莱克（Ben Afflec）的剧照，生成视频中，大本和张译大笑时咧开的嘴角弧度都完全相同。并且从侧脸转向正脸时的动作也十分流畅。

二、阿凡达、灭霸梦幻联动，人人都能做出迪士尼公主表情

X-Portrait 2除了能让一张图片按你想要的风格动起来，还能把相同表情直接搬到各种风格的人物形象上。

基于此，我直接让经典科幻电影《阿凡达》中的阿凡达，与漫威系列中的灭霸来了一场梦幻联动。

我上传了一段电影中女主角涅提妮与他人产生剧烈争执的视频，还有一张灭霸的静态图片。视频中的涅提妮边倒退边显露出悲伤的神色。

灭霸也展现出了同样的深情，并且额头上的皱纹还会伴随着情绪变化逐渐加深。

动画电影中迪士尼公主的神态动作已经自成体系，让人一看到就身处“迪士尼宇宙”。与此同时，一些互联网上的博主纷纷开启了模仿迪士尼公主的挑战，她们的表情神态惟妙惟肖，现在X-Portrait 2可以让任何人都能快速get这个技能。

这里我选择上传了一张AI生成的动漫人物形象，以及短视频平台中博主上传的模仿视频。可以看到，原视频的博主眼神、嘴部以及整个表情都很夸张，这个难度X-Portrait 2的生成效果并没有翻车。

我还上传了其他博主的模仿视频，生成的效果直接让本来只是一张静态图片的公主，直接身处童话世界了，好奇、开心的表情十分可爱逼真。

现在有很多动画电影还会被改编成真人电影，但这类电影在选择演员、剧情改编、演员表演等方面都会让原先的动漫读者忐忑不安，因为很多剧情真人演员很难表演出来，部分表情、动作甚至剧情会被改编。

现在基于X-Portrait 2可以直接将动漫人物的表情“复制”下来，“粘贴”到其他人物上。我上传了一段《美女与野兽》中“野兽”的一段视频，视频中“野兽”的五官与人类类似，还伴随着大吼的动作。

这段表演被准确复制到了我用AI生成的图片上，X-Portrait 2在表情识别方面没有受到干扰，眼睛、嘴巴的动作变化丝滑流畅，复刻了“野兽”的愤怒情绪。

可以看出，X-Portrait 2在表情生成方面的效果逼真程度可以体现在，眼部、嘴部的动作以及表情切换、动作协同性等诸多方面，能让静态形象的表情生成与其他动作配合协同。

三、表情编码器模型+生成扩散模型，实现表情“复刻”效果跃迁

上述这些肖像生成的惊艳效果均出自X-Portrait 2。

今年3月，字节跳动的第一代肖像动画模型X-Portrait，可以用于生成富有表现力和时间连贯的肖像动画。X-Portrait 2就是这一肖像动画模型的迭代版本，能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感。

为了让最后生成视频的表情更加流畅、逼真，X-Portrait 2结合了表情编码器模型和生成扩散模型，能够捕捉到驱动视频中演员的细微表情，甚至于撅嘴、吐舌头等需要调动多个面部器官的表情也能准确传达。

这一表情编码器模型是基于大型数据集进行训练，隐式编码输入中的每个微小表情，就可以做到表情传达的准确性。

面对驱动视频，这一编码器还可以实现人物外观和表情动作的强分离，能够让其更专注于视频中与表情相关的信息，从而实现表情动作的准确迁移。

通过为模型设计过滤层，编码器能有效过滤运动表征中的ID相关信号，使得即使ID图片与驱动视频中的形象和风格差异较大，模型仍可实现跨ID、跨风格的动作迁移，涵盖写实人像和卡通图像。

目前，除了X-Portrait 2，视频生成创企Runyway上个月也推出了类似的功能Act-One，这一功能可以让用户自己录一段视频，然后将其转移到AI生成的角色上。

相比之下，X-Portrait 2可以更准确地传递人物头部的动作、微笑的表情变化和个人情感表达；Act-One最终生成的视频也可以传达表情，但在人物情绪和快速的头部动作方面可能无法准确“复刻”。

下图的对比视频中可以看出，原视频中人物很悲伤，且说话中头部有轻微转动，但基于X-Portrait和Act-One生成的视频都没有将其体现出来，X-Portrait视频中人物头部摆动幅度复现了，但两个视频中的人物表情有轻微笑意，与原视频的情绪完全不同。

面部细节还原、头部动作与姿态的协调等，都是做到精准表情生成的关键，这也是目前X-Portrait 2的优势所在。

结语：让视频生成突破表情细节难题

在视频生成的众多环节中，表情生成是一个极具挑战性的部分，因为与人物整体的动作生成相比，细致入微的表情生成要困难得多，一个细微的面部肌肉变化都可能传达出截然不同的情绪。

尽管这项技术目前还处于学术研究阶段，但字节跳动在这一方面的积极探索具有深远的意义，通过不断地优化算法和模型结构，X-Portrait 2已经展现出捕捉和再现人物表情微妙变化的能力。这种进步将进一步拓展视频生成的应用边界。

世良情感网

表情管理这门课不用学了？字节跳动新技术，上传一张图让情绪瞬间“转移”

智东西