想让你的照片开口说话?字节跳动这项“黑科技”即将改变你的生活

智能也得细细瞧 2025-03-03 16:43:43

基于图片的扩散模型,前期的文章,我们也介绍过几种模型。可以给模型喂一张图片,然后提供一个引导视频,模型就能生成基于图片的运动视频。

字节跳动开发了一个名为 OmniHuman 的端到端多模态人体视频生成框架。简单来说,它能根据一张人物照片,以及声音、视频等动作信号,让照片中的人物“活”起来!OmniHuman 的秘密武器在于多模态混合训练策略,它就像一个“数据搅拌机”,充分利用各种数据,解决了之前类似技术因为高质量数据稀缺而遇到的瓶颈。最终效果嘛,就是更逼真、更灵活、更多样!无论是啥身材比例、啥图片风格,OmniHuman 都能轻松驾驭,生成栩栩如生的人物视频。

视频生成: 就是用AI技术,根据你给的文字、图片、声音等信息,自动生成一段视频。

扩散模型(Diffusion Model): 现在最火的一种视频生成技术,可以理解成一个“逆向PS”的过程,先给图片/视频加噪点,再一步步去除噪点,最终生成新的清晰图片/视频。

人体动画: 让照片里的人动起来,比如唱歌、跳舞、说话,应用前景广阔!

以前的人体动画技术,虽然能让照片里的人动起来,但总有几个问题:

不够逼真: 动作僵硬,表情不自然。不够灵活: 只能生成特定角度、特定姿势的视频,换个角度就不行了。数据不够: 训练模型需要大量数据,但高质量的人体动画数据很难找。

为了解决这些问题,字节跳动提出了一个叫做 OmniHuman-1 的新模型,这个模型有几个厉害的地方:

“万能”条件控制: 以前的模型只能用声音或者姿势来控制人物动画,OmniHuman-1厉害了,它可以同时使用文字、声音、姿势等多种信息来控制人物的动作和表情,想让ta唱歌就唱歌,想让ta跳舞就跳舞!混合数据训练大法: 以前的模型为了保证生成视频的质量,只能用高质量的数据来训练,但这样就限制了数据的量。OmniHuman-1更聪明,它把各种数据混合在一起训练,比如高质量的数据、低质量的数据、只有声音没有图像的数据等等。训练技巧: 为了让模型更好地学习,他们还设计了一些特殊的训练技巧,让模型既能学习到高质量数据的细节,又能学习到低质量数据的多样性。

OmniHuman-1 模型

更逼真: 生成的视频更自然、更生动,人物的表情、动作、口型都和声音完美匹配。更灵活: 可以生成各种角度、各种姿势的视频,而且还支持不同的图像风格,不管是真人照片还是动漫人物,都能轻松驾驭!更多样: 支持更多控制方式,可以用文字、声音、姿势等多种信息来控制人物的动作和表情。

OmniHuman 的模型框架可以分为两大部分,就像一个人的大脑和四肢:

大脑:OmniHuman 模型(核心,负责思考和决策):

基础:扩散模型(Diffusion Model):OmniHuman 的“大脑”是基于一种叫做扩散模型的先进技术构建的。你可以把扩散模型想象成一个高级的“逆向PS”工具,它能逐渐去除图像中的噪点,从而生成新的、高质量的图像和视频。OmniHuman 具体使用的是 Seaweed 模型作为基础,这个模型本身就挺厉害的,擅长生成各种风格的视频。

输入:多模态信息(文字、声音、姿势、照片): OmniHuman 最厉害的地方在于它能同时接收各种各样的信息,这些信息就像“指令”,告诉模型要生成什么样的视频:

文字: 描述视频的内容,比如“一个女孩在唱歌”。声音: 描述人物的声音、语调、情感,比如“一个快乐的女声”。姿势: 描述人物的身体动作,比如“举起双手”。照片: 描述人物的外貌、服饰、背景,比如“一个穿着红色连衣裙的女孩”。

处理:MMDiT(多模态调制):为了让模型能听懂这些“指令”,OmniHuman 使用了一种叫做 MMDiT 的技术。MMDiT 就像一个翻译官,它能把各种“指令”转换成模型能够理解的信号,然后告诉模型该如何生成视频。

输出:逼真的人体视频: 经过一系列复杂的计算,OmniHuman 最终生成一段高质量的人体视频,视频中的人物不仅外貌和照片一样,而且动作、表情、口型都和“指令”完美匹配。

四肢:Omni-Conditions 训练策略(负责学习和成长):

目的:提升模型能力:模型架构设计好了,接下来就要让模型学习如何生成逼真的人体视频。为了让模型学得更好,OmniHuman 使用了一种叫做 Omni-Conditions 的训练策略。

核心思想:弱信号 + 强信号:这个策略的核心思想是,让模型先学习简单的任务,再逐渐学习复杂的任务。比如,先让模型只根据文字生成视频,再逐渐加入声音、姿势等信息。

方法:多阶段训练:为了实现这个目标,OmniHuman 将训练过程分为了三个阶段:

第一阶段(T2V Pre-Training): 只使用文字信息训练模型,让模型学会生成基本的视频。第二阶段(Mixed Conditions Post-Training): 混合使用文字、图像、声音等信息训练模型,让模型学会生成更逼真的、更符合人类期望的视频。第三阶段(Strong Motion-Related): 引入姿势信息,进一步提升模型控制动作的能力。

效果: 通过这种多阶段训练策略,OmniHuman 能够充分利用各种数据,学习到人体动画的精髓,最终生成高质量的人体视频。

OmniHuman 的模型框架就像一个装备精良的艺术家,它不仅拥有强大的“大脑”(扩散模型),能够生成各种图像,而且还拥有灵敏的“四肢”(Omni-Conditions 训练策略),能够通过学习不断提升自己的技能,最终创作出令人惊叹的人体动画作品。

以前的人体动画技术,就像一个只会模仿的机器人,你让它干啥它就干啥,但动作很机械。OmniHuman-1就不一样了,它就像一个经验丰富的演员,你告诉它人物的背景、性格、情绪,然后给它一段声音或者几个动作,ta就能自己发挥,演出一段精彩的视频!

OmniHuman-1是字节跳动在人体动画领域的一次重要突破,它让AI技术生成的视频更逼真、更灵活、更多样,为未来的虚拟人、数字内容创作等领域带来了更多可能性。相信在不久的将来,我们就能用这项技术,轻松制作出各种各样的个性化视频!

0 阅读:9
智能也得细细瞧

智能也得细细瞧

感谢大家的关注