字节跳动展示OmniHuman多模态框架:肖像+音频=逼真动画

IT之家 2025-02-06 15:31:06

IT之家2月6日消息,字节跳动的研究人员近日展示了一款AI模型,可以通过一张图片和一段音频生成半身、全身视频。

字节跳动表示,和一些只能生成面部或上半身动画的深度伪造技术不同,OmniHuman-1能够生成逼真的全身动画,且能将手势和面部表情与语音或音乐精准同步。

字节跳动在其OmniHuman-lab项目页面发布了多个测试视频,包括AI生成的TED演讲和一个会说话的阿尔伯特・爱因斯坦。

在周一发布的一篇论文中,字节跳动指出,OmniHuman-1模型支持不同的体型和画面比例,从而使视频效果更自然。

据IT之家了解,字节跳动表示,OmniHuman-1模型基于约19000小时的人类运动数据训练而成,能够在内存限制内生成任意长度的视频,并适应不同的输入信号。

研究人员还表示,OmniHuman-1在真实性和准确性方面,超越了其他同类动画工具。目前,该工具暂不提供下载或有关服务。

0 阅读:13
IT之家

IT之家

爱科技,爱这里 - 前沿科技人气平台