照片人物“开口唱歌”，阿里发布生成视频模型EMO

明智札淇铭 2024-03-13 09:15:11

阿里巴巴研究团队近日发布了一款名为“EMO（Emote Portrait Alive）”的 AI 框架，输入一张参考图像和声音音频，该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频，支持中英韩等语言。

概要：一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频，例如说话和唱歌，我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频，同时，我们可以根据输入视频的长度生成任意持续时间的视频。

方法：我们的框架主要由两个阶段组成。在称为帧编码的初始阶段，ReferenceNet 用于从参考图像和运动帧中提取特征。随后，在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成。接下来是使用主干网络来促进去噪操作。在主干网络中，应用了两种形式的注意力机制：参考注意力和音频注意力。这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外，时间模块用于操纵时间维度，并调整运动速度。

EMO 这一基于英伟达的音频到视频生成框架。EMO 使用了超过 250 小时的专业视频进行训练，以构建相关的 AI 框架。研究团队还分享了一些由 EMO 框架生成的 DEMO 演示片段，并在 ArXiv 上发布了模型的工作原理。如果您对此感兴趣，可以访问 GitHub 查看项目

官网：https://humanaigc.github.io/emote-portrait-alive/

视频生成效果：

根据研究人员的称述，他们引用了多项实验结果来支持他们的观点，声称EMO有能力产生令人信服的说话视频，并且能够生成不同风格的歌唱视频。他们将EMO与其他竞争产品如DreamTalk、Wav2Lip和SadTalker进行比较，并称EMO在这些方面表现出显著的优势。

0 阅读：0

明智札淇铭

感谢大家的关注

作者最新文章

1

普通人改命法宝-破常规、战困境、守初心！

2

写给奔四的九零后：人到中年，记住这两句话，后半生会更从容

3

异地夫妻保鲜得向身边人学习，日子过成连续剧的秘诀！

4

命中的得与失，一切都是最好的安排，我信啦

5

婚姻里男女冷战心理大揭秘！学会三招冰封关系秒回温！

6

丈夫事业顺不顺，看这三个地方准得很

7

青春期孩子打死不说的10个小秘密，第一条就让父母崩溃！

8

这10个孝心操作月薪三千也能让爸妈笑开花！

9

"父母十大作死行为：这些坏习惯正在毁掉孩子一生！看完我跪了…"

10

女生必看！这5类男生被称“出轨绝缘体”？最后一种直接封神！

社会TOP

1

妙瓦底电诈绝迹了吗?当地居民称KK园区等有自愿留下的多国诈骗者

2

广东车牌开进香港有望年内实现

3

暴雨暴雪确定!3月最强雨雪上线,后面还有一波?全球3风暴共舞

4

确定了,免费!连休3天!

5

BRT,不“香”了?

6

广东这个副中心,机会来了?

7

2名年轻男女斑马线上骑车相撞双双躺在地上假装受伤

8

杭州,给全国城市上了一课

9

今年第1波倒春寒来了?新一轮雨雪:10省降雪8省降雨,3气旋共舞

10

珠三角又一“超级工程”要来了?

社会最新文章

1

我进监狱采访“缅北电诈犯”

2

中国“鸭王”被立案!4万股民要慌了……

3

广东车牌开进香港有望年内实现

4

十年套走480亿,内地生意仅剩5%,李嘉诚终于想摊牌了?

5

首次!第二强省,人口零增长了

6

3·15晚会“塌房名场面”全记录!避雷这些“刺客”品牌!

7

大妈将卖房款588万捐给寺庙晚年却想让女儿养老女儿:缘分已尽

8

央视315曝光骚扰电话背后完整的利益链

9

外卖员最嫌弃的黄焖鸡,倒在315前夜

10

居委会,取代业主委员会?

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量