他开发文生视频大模型,未来计划实现可落地的通用多模态大模型

深科技利大千 2024-07-30 21:54:22

只需输入一段文字,即刻生成高清视频。这是以 Sora 为代表的文生视频大模型,向世人展现出的独特魅力。(编者注:Sora 是一款由美国 AI 研究公司 OpenAI 于 2024 年 2 月推出的文生视频大模型,能够根据简短的文字输入,生成最长可达 60 秒的逼真视频。)

而继 Sora 发布两个月后,2024 年 4 月 27 日,一款中国版视频大模型 Vidu 应运而生[1],视频生成领域迎来又一新成果。

该模型支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。生数科技联合创始人兼 CTO 鲍凡,则是它背后的主要发明者。

凭借带领团队开发文生视频大模型 Vidu,鲍凡成为 2023 年度《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者之一。

提出可一键生成 16 秒高清内容的文生视频大模型,有望在影视、内容生产等领域发挥应用

基于 U-ViT 作为核心架构的扩散模型,鲍凡与团队得以开发出 Vidu。

该模型通过利用 Transformer 的可扩展性和长序列建模能力,可以打破文生视频时长较短的限制,不仅能够在单次生成中输出如上所说的时长为 16 秒的 1080P 视频,也可以生成单帧图像作为视频。

除此之外,Vidu 还拥有良好的动态性和连贯性,既能输出如现实生活一般的视频,也可以创造出富有想象力的内容。

具体来说:

首先,生成不同长度的视频。

其次,生成的视频具有很强的三维一致性。

再次,能够在一次生成中制作包含过渡的视频,并且这些过渡还能以引人入胜的方式连接两个不同的场景。

实际上,这些能力只是 Vidu 众多生成能力的其中一部分。它还能生成包含剪辑的视频,包括变焦、平移在内的摄像机运动视频,以及可以提升环境氛围的光影效果视频等等。

在验证模型效果的过程中,该团队将该模型与目前最强大的文生视频大模型 Sora 进行了对比,发现前者在生成视频的时长、连贯性和动态性方面,展示了与后者相当的性能。

显而易见,Vidu 有望在多个场景下发挥潜在的具体应用。

譬如:

其一,影视行业。

多机拍摄是电影或电视制作过程中常用的一种拍摄方式,如果能在这个过程中应用 Vidu,就可以实现只用一台摄像机拍摄,而其他机位的视频都借助这款大模型自动地推理出来。这能给原本较为复杂的影视制作流程带来巨大的效率提升。

其二,内容生产。

帮助用户随时随地产出想要的内容,为他们提供个性化的情绪体验。

比如,在 Vidu 的加持下,用户随时可以看到满足自己口味的视频内容,或随时将自己置身于一个充满新鲜感的风景中。

谈及 Vidu 的整个研发过程,鲍凡将其形容为“类似于造火箭的感觉”。

“和学术界做研究、发论文的过程不太一样,它是在解决一个大型的项目管理问题。为达成开发出视频生成大模型的目标,我们必须一一攻克包括算法、数据、工程在内的许多层面上的问题。”他说。

因此,在研发中,鲍凡每天都会花费大量时间思考,如何才能将这么多层面上的问题进行压缩。

“比如说,可以把两件事情合成一件事情来做,或者做了一件事情之后就没必要再做另外一件事情。”他解释说。

并且,因为一开始他们并未积累足够多的经验,所以不得不面临各种各样的不确定性,并需要用大量时间开展试错工作。

“由于巨大的不确定性,那段时间我处于一个压力比较大的状态,每天晚上在公司都靠吃泡面来解压。”鲍凡说。

义无反顾走上创业道路,致力于实现可落地的通用多模态大模型

和大部分学生一样,鲍凡也遵循标准的路径,完成了义务教育和高考。

“可能稍许不同的一点是,我比较早地形成了从基本原理出发思考事物的习惯。”鲍凡表示。

在他看来,这背后的原因可能体现在多个方面。

其一,他认为自己的脑容量有限,如果不将知识压缩成稠密的基本原理,就很难记下来。

其二,他所接受的家庭教育也扮演了很重要的角色。

“在我很小的时候,父亲就常和我说一些刁钻的数学题。虽然用简单的加减乘除就可以解决它们,但如果不从基本的原理出发进行思考,很容易出错。”鲍凡表示。

2014 年,他考入清华大学生命科学学院读本科,两年后转入计算机科学与技术系。2019 年获得计算机系的学士学位以后,他继续在母校攻读博士学位,师从张钹院士和朱军教授。

在这期间,他重点关注扩散模型这一研究方向,并在该领域做出了诸多具有国际影响力的成果,其中最具代表性的包括 Analytic-DPM、U-ViT 和 UniDiffuser。

“在博士三年级之前,我的研究兴趣集中在理论上,当时做了不少有关能量模型、分数匹配、学习理论和扩散模型等方面的理论研究。”鲍凡表示。

其中,在对扩散模型进行推理加速方面,他设计了一个无需训练的推理框架 Analytic-DPM[2]。据了解,相关论文获得机器学习顶级会议 ICLR 2022 杰出论文奖,所提出的方法也作为核心技术,被应用到 OpenAI 发布的超大规模图文生成系统 DALL·E 2 上。

“在博士三年级之后,我的研究方向收敛到了扩散模型及其应用。这是因为,我看到了扩散模型在生成式 AI 上的前景。所以,我不再只追求理论的优雅,同时也追求工程和实践上的优雅。”鲍凡表示。

基于此,他以通用的多模态大模型为目标,在网络架构、概率建模和大规模训练等方面,取得了一系列成果。

在网络架构方面,他提出了如上所说的 U-ViT 架构,为多模态的扩散模型打下架构基础。

实际上,在该架构提出之前,视频生成领域通常采用以 U-Net 为核心架构的扩散模型,能够支持构建较短时长(多为 4 秒)的文生视频大模型。

不过,U-Net 架构的瓶颈在于,当模型参数量和数据量达到一定水平时,就不会再出现明显的性能提升。

Transformer 架构则不然。基于这种架构的模型的参数量和数据量越大,最终能实现的模型效果就越好。

因此,鲍凡与合作者开发了结合 Diffusion 与 Transformer 的架构 U-ViT[3],让扩散模型具备了可扩展性,并拥有了处理多模态数据的能力。

在概率建模方面,他基于 U-ViT 架构开发了多模态扩散模型 UniDiffuser,并完成了 U-ViT 架构的大规模可扩展性验证。

“当我们看到 UniDiffuser 模型的效果,能与开源生成式 AI 公司 Stability AI 发布的 Stable Diffusion 模型基本对标时,就已经得出 Diffusion 与 Transformer 融合的架构,有望在未来发挥出巨大潜力的判断。”鲍凡表示。

2023 年 3 月,鲍凡正式走上创业道路,联合创办了名为生数科技的多模态大模型公司。

谈及选择成为一名创业者的原因,他表示:“当时需要在创业和学术上选一条道路,而我的目标一直都是做出能够给人类社会带来深刻改变的大模型。那么,要想达成该目标,最短的路径就是创业,因此便义无反顾地朝着这条道路前进了。”

上文提到的 Vidu,既是他在该公司成立之后研发出的成果,又综合了他此前在扩散模型领域的全部努力。

之所以在公司成立初期,就决定开发这样一款文生视频大模型,鲍凡也有自己的考虑。

“从技术上讲,我觉得视频模型本身是 AI 领域甚至是全人类的一个重大突破。从商业化上讲,目前影视、动漫等行业拥有较大市场,因此视频生成本身就有较大商业价值。”他说。

当下及未来,他的研究目标是实现可落地的通用多模态大模型,希望能推动一个模型统一地理解各种各样模态的输入,以灵活地完成各种可控生成任务。

“我们目前初步达成了一些通用的可控性。比如,大部分视频相关的任务,包括视频风格化、视频编辑和修复等,都可以在一个模型里面完成。”鲍凡说。

当然,他也指出,现在已经可以完成的任务,远远无法覆盖所有的可控生成任务。

要想让模型变得更加通用,还需要具备能够处理包括文字、图像、视频和 3D 在内的各种模态的素材输入。

“如果模型能够良好地理解各种模态的素材输入,那么距离通用的可控性就不远了。”鲍凡表示。

目前,他正在推动实现这一目标。

参考资料:

1.F.,Bao,C.,Xiang,G.,Yue.et al.Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models.arXiv:2405.04233.https://doi.org/10.48550/arXiv.2405.04233

2.F.,Bao,C.,Li,J.,Zhu.et al.Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models.arXiv:2201.06503.https://doi.org/10.48550/arXiv.2201.06503

3.F.,Bao,S.Nie,K.,Xue.et al.All are Worth Words: A ViT Backbone for Diffusion Models.arXiv:2209.12152.https://doi.org/10.48550/arXiv.2209.12152

0 阅读:1

深科技利大千

简介:感谢大家的关注