快手可灵凭什么频繁刷屏?揭秘背后三项重要研究

机器的心脏 2025-01-23 18:17:26

作为全球首个可公开体验的真实影像级视频生成大模型,可灵已经正式发布并上线。在短短半年多的时间里,可灵已完成了数十次功能与效果的升级迭代,始终稳居全球视频生成领域的第一梯队,持续引领着行业效果的提升。同时,它还陆续推出多项丰富且实用的控制与编辑功能,为全球创意制作人士提供了广阔的创作空间,充分激发并展现了他们的灵感。

与 "可灵 AI 平台" 在视频生成领域的广泛行业影响力不同,可灵团队及其研究工作始终保持着低调与神秘。然而,其背后的技术突破和创新思维却吸引了众多关注者的兴趣。

近日,可灵团队公开了多项研究成果,揭示了他们在视频生成领域的洞察与前沿探索。这不仅是对学术界和开源社区的回馈,也旨在激发行业与社区的创造力,共同推动该领域的技术进步。

此次公开的研究工作涵盖了视频生成模型成功的几个关键因素:数据基建的精炼之 “术” 与大模型训练的规模之 “道”:可灵团队分享了其数据基建核心流程,并推出了视频生成领域最高质量的大规模开源数据集 Koala-36M,为学界和社区模型训练提供坚实基础;同时将语言模型中 Scaling Law 引入视频生成领域,系统性地揭示了模型规模、超参数选择与训练性能之间的关系,为高效训练和性能优化提供了科学指导。

此外,他们还积极与学界合作,联合探索未来技术的演进方向,此次分享了和清华大学近期的合作成果:提出名为 Owl-1 的全新视频生成范式。该方法使用通用世界模型(Omni World model)建模视频生成过程,通过状态 - 观测 - 动作的闭环推理演化实现时序一致的长视频生成,展现了视频生成技术更远大的前景。

一、数据基建的精炼之 “术”

可灵背后的数据链路

在当今的大模型时代,数据的重要性不言而喻。高质量的大规模数据集是训练高性能模型的基础。然而,当前视频生成领域缺乏高质量的大规模预训练数据,这成为了制约模型发展的瓶颈。

为了解决这个问题,可灵团队开源了 Koala-36M,是目前开源的质量最高的大规模视频生成数据集,其背后的数据处理流程也是可灵大模型的重要支撑。与 SOTA 数据集 Panda-70M [1] 相比,Koala-36M 分别在视频切片、文本标注、数据筛选和质量感知上做出改进,大幅提高了文本视频的一致性。

如下所示,在相同的生成模型和训练步数下,相较于 Panda70M,在 Koala-36M 上预训练的模型具备更高的生成质量和更强的收敛性,充分证明数据集和处理流程的有效性。

Koala-36M 包含 3600 万个视频片段,平均时长为 13.75 秒,分辨率为 720p,片段的文字 caption 平均长度为 202 个词,相较已有数据集,在质量上有大幅提升。

1、方法介绍

通过以下效果图的展示,可以发现 Panda-70M 存在视频切片不充分、文本描述简短、部分低质量视频保留的问题,Koala-36M 对上述方面进行更细致精准的改进。

Koala-36M 出发点是为视频生成模型提供精确且细致的条件控制,通过更加精准的视频切片、更加细致的文本描述、更加丰富的条件引入,使得模型感知与视频内容更加一致。

目前视频生成数据集处理方式有一些关键的问题有待解决:

更精准快速的视频切割

视频切片是构建视频文本数据集的关键一步,无转场的视频能够更加契合文本描述,利于模型学习,从而使得生成结果更加时序一致。目前视频的切分算法一般使用 PySceneDetect [2],对于渐变转场识别表现不佳。

Koala-36M 提出新的切片算法 Color-Struct SVM (CSS),通过计算帧之间的结构距离和色彩距离,输入给 SVM 学习识别转场能力。对于渐变转场,Koala-36M 假设视频在时间变化上相对稳定,估计过去帧变化的高斯分布,根据当前帧的变化是否超出 3σ 置信区间判断显著变换。这种方法在不增加计算负担的情况下,增强了对渐变和快速运动场景的区分能力。Koala-36M 进一步在 10000 个标注转场的视频片段进行检测,证明算法在精度和运行效率上的有效性。

更细粒度的 caption 算法

更加详细的视频描述会带来更好的视频文本一致性。为了获得更加详细的文本描述,Koala-36M 使用了一个结构化的文本标注 体系,一段文本描述会被拆解为以下 6 个部分:

和现有的工作相似,Koala-36M 首先通过 GPT-4V [3] 生成初步文本标注,微调基于 LLaVA [4] 的文本标注网络,为其余的数据打标。训练过程中采用了图像视频混合训练的方式,以缓解视频数据多样性不足的问题。最终得到 Koala-36M 的文本描述长度分布如下。

全新的数据筛选流程

视频原始数据的质量参差不齐,需要筛掉低质量的数据,保留高质量的数据。如下图蓝框所示,传统的数据筛选方式通过多个子度量指标来衡量视频的质量,并手动设置阈值对视频进行筛选。由于视频质量是所有子度量指标的联合分布,而子度量指标之间并非完全正交,所以设定的阈值之间应该存在隐含约束。然而,现有方法忽略了子度量指标的联合分布,导致阈值设置不准确。同时,由于需要设置多个阈值,不准确阈值的累积效应使得筛选过程中出现较大偏差,最终导致低质量数据的漏检和高质量数据的误删。

为解决这一问题,Koala-36M 提出 Training Suitability Assessment Network(TSA),用于建模多个子度量指标的联合分布。该网络将视频和子度量指标作为输入,并输出单一值 “Video Training Suitability Score(VTSS)”,作为筛选数据的唯一指标,直接反映视频是否适合用于训练目的。具体来看,Koala-36M 构建了新的视频质量评价体系,考虑动态质量、静态质量和视频自然度等三个维度,邀请用户评测给出唯一分数并归一化,反映视频是否适合作为视频生成模型的训练数据。

多模态输入视频评价网络 (TSA) 用于拟合用户打分。如上图所示,网络分为三个分支,动态分支以 3D Swin Transformer 为骨干,静态分支以 ConvNext 网络为骨干,传统数据筛选策略中的各种数据标签也被保留,作为额外信息通过新的分支传递给网络模型,不同分支的特征通过权重交叉门块(WCGB)融合。如下图所示,Koala-36M 的筛选流程能够大幅减少低质量数据漏检、高质量数据误删的情况。

加强模型对异质数据感知

在现有的数据流程中,数据的标签只是简单地用于数据筛选。然而,筛选后的数据质量有所差异,导致模型难以区分高质量和低质量的数据。为了解决这个问题,Koala-36M 提出一种更精细的模型感知方法,在训练过程中将不同视频的质量标签注入生成模型,从而提高条件和视频内容之间的一致性。

具体而言,在扩散模型训练过程中,将运动分数、美学分数和清晰度分数等数据通过自适应层归一化(AdaLN)加入 Transformer 中。这种条件加入方式不会增加扩散模型的计算负荷,反而会增强模型对异质数据的感知,加速模型的收敛。在推理阶段,可以设置不同的特征分数,细粒度地控制视频生成。此外,下图中表明基于 AdaLN 的注入方法相较于文本编码器的注入方法 [5] 具备更精细的运动幅度控制,和更强的风格解耦能力。

2、实验对比

Koala-36M 在不同数据集上预训练相同的视频生成模型,控制训练步数相同,衡量视频生成的质量,进一步对数据处理流程和训练策略的有效性进行验证。实验分为以下六组:

分别比较 Koala-w/o TSA 和 Koala-36M、Koala-w/o TSA (condition) 和 Koala-36M-condition 的训练结果,后者的结果均优于前者,表明筛选低质量数据能够防止模型从低质量数据中学习到有偏差的分布。此外,Koala-37M-manual 和 Koala-36M 的训练结果,表明基于单个 VTSS 的筛选方法相较于手动设置阈值能获得更好的筛选效果。对比 Koala-36M 和 Koala-36M (condition) 的训练结果,当注入 metrics condition 时,生成模型的视频质量有显著提高,表明使用指标指导模型训练,有助于模型隐式感知不同数据的重要程度。

3、Koala-36M 总结

Koala-36M 是一个大规模高质量视频文本数据集,具有精确的视频切片、详细的文本描述和更高质量的视频内容。该数据集是目前唯一一个同时拥有大量视频(超过 1000 万)和高质量细粒度文字说明(caption 平均长度超过 200 字)的视频数据集,大大提高了大规模视频数据集的质量。此外,为了进一步提高细粒度条件与视频内容的一致性,Koala-36M 提出了一套完善的数据处理流程,包括更好的视频切片方法、结构化的文本标注系统、有效的数据筛选方法和异质数据感知。

二、大模型训练的规模之 “道”

视频生成领域的 Scaling Law

视频生成技术正迅速成为人工智能领域的核心热点,从娱乐内容创作到广告制作、虚拟现实和在线教育等场景,展现出巨大的应用潜力。然而,与静态图像生成不同,视频生成任务需要同时建模视觉结构与时间维度上的动态变化,还需处理复杂的高维解空间,以准确模拟现实世界的动态场景。这种复杂性不仅显著增加了数据和算力的需求,还使试验试错成本高昂。因此,如何在给定的数据和计算预算内实现最优性能,成为视频生成领域亟待解决的关键挑战。

当前代表性的视频生成模型 Movie Gen 的参数规模已达到 300 亿,远超早期的 Video DiT(约 7 亿参数)。在此背景下,Scaling Law 的重要性日益凸显。尽管在语言模型中已经使用 Scaling Law 来预测性能,但在视觉生成模型中的存在性和准确推导仍然未得到充分探索。

该文首次将批次大小和学习率进行精确建模,为任意模型大小和计算预算下的最优超参数选择提供指导,并对最优超参配置下的验证损失进行了精准预测。此外,该文进一步建立了最优模型大小和计算预算之间的精确关系。实验表明,与传统 Scaling Law 方法相比,在 1e10 TFlops 的计算预算下,该工作提出的推导方法可减少 40.1% 的推理成本,同时保持了相当的性能。这一成果为视频生成领域的高效优化提供了新的方向,并为行业开发大规模视频生成模型带来了重要启示。

1、背景

近年来,大语言模型(LLM)的研究揭示了模型性能、模型规模与计算预算之间的幂律关系,这一规律被称为 Scaling Law。通过对小规模模型的实验,研究者能够有效预测大规模模型的性能表现,从而在资源受限的条件下实现高效的模型优化。尽管 Scaling Law 已在语言模型领域取得显著成效,Image DiT 的 Scaling Law 也有初步研究,但视频生成的独特复杂性使得其在这一领域的研究仍是空白,成为限制更大规模视频生成模型开发的重要阻碍。

技术难点:Video DiT 模型对超参数高度敏感

随着 Video Diffusion Transformers(Video DiT) 的发展,其在生成视频质量和多样性方面取得了显著进展。本文尝试将语言模型领域的 Scaling Law 方法扩展应用于 Video DiT。然而,研究发现,Video DiT 模型的性能对批量大小、训练步长等超参数高度敏感,经验性的参数选择往往引入较大的不确定性,从而显著影响模型验证损失(如图 1 所示)。因此,构建适用于 Video DiT 的精确 Scaling Law 并优化超参数配置显得尤为重要。

经典 Scaling Law 研究中的局限性

在语言模型的 Scaling Law 研究中,最优超参数的选择往往被忽略或存在一定争议。早期研究通常依赖启发式方法,缺乏系统性的理论依据来指导超参数选择。现有的 Scaling Law 研究在模型规模与超参数关系的细粒度探索方面仍有不足,而这对优化计算资源和提高拟合精度至关重要。现有的 Scaling Law 的问题包括:

通过对这些经典研究的分析与反思,作者们发现优化超参数配置对于构建适用于 Video DiT 的 Scaling Law 至关重要。因此,本文将深入探讨超参数在模型性能优化中的作用,并在给定模型规模和训练数据量时预测超参数,从而为大规模模型的训练提供更加精确的理论依据与实践指导。

最优超参数预测

研究者通过理论推导与实验验证,构建了最优学习率与批次大小的预测公式,并通过外推方法实现对大规模模型的精确预测。

实验结果表明,学习率与模型规模和训练数据量之间存在明确的非线性关系,基于公式的拟合曲线能够准确预测不同规模模型的最优学习率。

实验结果显示,批次大小与模型规模和训练数据量同样存在显著的依赖关系。拟合曲线的准确性在不同模型规模上表现一致。

2、更精确的 Scaling Law:探索 video DiT 模型的性能边界

研究者基于上述最优超参数的预测提出了一种针对 Video DiT 的更精确的 Scaling Law,从模型规模、训练数据量与计算预算的平衡角度出发,不仅可以预测给定计算预算下的最佳模型大小,还可以为不同大小的模型提供更精确的性能预测。

更高效的经验最优模型参数预测。在 [3e17, 6e17, 1e18, 3e18, 6e18] 等不同计算预算下,研究分别比较了使用最优和次优超参数配置时,经验最优模型参数(IsoFLOPs 曲线)的预测偏差(图 6)。研究发现:

在相同计算预算下(10^10 TFLOPs),使用最优超参数时的经验最优模型参数量相比非最优超参数可减少约 39.9% 的参数量(图 6c),推理成本减少了 40.1%。这在实际应用部署中所带来的收益是巨大的。

拟合结果

3、总结

本文深入探讨了 Video DiT 的 Scaling Law,提出了一种新的框架来优化超参数选择、模型规模和训练性能,为高效训练提供指导,具体来说:

三、视频生成未来之势

通用世界模型

这三个组成部分共同构成了一个闭环的演化系统,相互作用、相互影响,共同推动着世界的不断演变和视频的生成。

通用世界模型能够直接捕捉并模拟三维世界的时空演变规律,从而提升生成视频的时序一致性和逻辑合理性。这意味着生成的视频不仅看起来自然,而且内容更加连贯,避免了单一或重复的内容。

通过预测和利用演化动作变量,Owl-1 能够丰富生成视频的内容多样性。这使得生成的视频更加生动有趣,能够更好地反映真实世界的变化规律。

1、方法介绍

Owl-1 的目标是构建一个时序一致的长视频生成模型,其核心在于采用通用世界模型建模视频生成任务。为什么要使用通用世界模型呢?因为视频数据本质上是对周围世界演化过程的一种观测,是四维时空向三维观测的一种投影。而通用世界模型能够直接捕捉并模拟三维世界的时空演变规律,因此从世界模型的角度建模视频生成任务是一种更加有效和本质的方法。一方面,四维时空的一致性能够提高生成视频的时序一致性;此外,对于世界演化过程的显式建模也能提高生成视频内容的多样性和逻辑性,避免单一或者重复的内容。

通用世界模型建模

通用世界模型有三个核心组成部分,包括隐空间状态变量、显式观测变量和演化动作变量。这三个部分各自扮演着不同的角色:隐空间状态变量负责捕捉世界的当前状态和历史信息,它可以被视频生成模型解码成对应的视频。显式观测变量则是对当前世界状态的直接观测,即看到的视频帧。而演化动作变量则描述了世界状态随时间的变化规律,它驱动着世界的演变,并以文本的形式呈现。

隐空间状态变量是 Owl-1 的核心,它不仅仅关注视频本身的像素信息,而是深入到视频背后的世界,通过捕捉和表示这个世界的动态变化,来更准确地模拟世界的演变,从而生成更加连贯和一致的长视频。

演化动作变量是驱动世界演变的关键因素。它以文本的形式存在,描述了世界在不同时刻之间的动态变化过程。通过预测和利用这些演化动作变量,Owl-1 能够丰富生成视频的内容多样性,并确保视频的一致性和连贯性。

Owl-1 的这三个组成部分共同构成了一个闭环的演化系统。这三个部分相互作用、相互影响,共同推动着世界的不断演变和视频的生成。

模型结构

Owl-1 充分利用了预训练的多模态大模型(LMM)和视频扩散模型(VDM)。LMM 是通用世界模型的核心组成部分,它直接建模了状态 - 观测 - 动作三元组的演化过程。而视频扩散模型则负责将隐空间状态变量解码成短视频片段,即显式观测变量,然后输入 LMM 进行后续推理。通过这两个模型的协同工作,Owl-1 实现了闭环通用世界模型的建模。

定制化多阶段训练流程

Owl-1 采用了多阶段的训练过程。首先是对齐预训练阶段,通过大规模的短视频数据来训练多模态大模型输出的隐空间状态变量与视频扩散模型对齐,这一阶段仅训练多模态大模型,能够为后续的训练过程提供一个良好的初始化。接着是生成式预训练阶段,这一阶段主要强化视频扩散模型根据隐空间状态变量生成显式视频观测的能力,因此本文联合训练多模态大模型和视频扩散模型。最后是世界模型训练阶段,因为尚没有能体现世界模型概念的视频数据集,本文采用了 Vript 和 ActivityNet 两个密集视频字幕数据集,将隐空间状态变量、显式观测变量和演化动作变量整合在一起,形成一个完整的通用世界模型。

2、效果展示

此处展示了 Owl-1 生成不同时长视频的效果,包括 2 秒,8 秒和 24 秒的视频长度,其中 2 秒的生成视频使用了 VBench 的图文提示词,8 秒和 24 秒的视频使用了 WebVid 或者 Vript 数据集的图文提示词。

基于给定的初始帧和文字描述,Owl-1 能生成具有较大的姿态和场景变化的视频,同时生成的视频能够反映真实世界中物体和场景的变化规律。这说明 Owl-1 能够很好地由隐空间状态变量解码得到显式的视频观测。

对于同场景多段短视频生成(~8 秒),Owl-1 能够实现视频之间的无缝衔接,且生成的视频具有较高的一致性。这验证了隐空间状态变量保持视频内容的一致性的能力。

对于跨场景多段长视频生成(~24 秒),Owl-1 在场景转换、运动捕捉和细节呈现方面表现出优越的性能,其生成的视频不仅连贯流畅,而且细节丰富,在视频内容发展方面展现出一定的逻辑性。这验证了演化动作变量对于视频内容发展的重要推动作用,初步体现出基于世界模型的视频生成范式的优势。

3、定量结果

本文在 VBench-I2V 和 VBench-Long 两个基准上分别测试了 Owl-1 生成短视频和长视频的能力。

上表展示了 Owl-1 在 VBench-I2V 上的实验结果,该结果表明 Owl-1 在大部分指标上与其他模型的能力相当,但在动态程度和美学分数上仍旧有所欠缺,这可能和用于训练的视频数据的动态程度和美学分数相关。

上表展示了 Owl-1 在 VBench-Long 上的实验结果。Owl-1 与开源的视频生成方法取得了相当的性能,其中在一致性相关的指标上取得了最佳的性能。这说明了 Owl-1 在保持长视频的时序一致性方面超过了现有的方法。

四、总结

[1] Tsai-Shien Chen, Aliaksandr Siarohin,et al. Panda-70m: Captioning 70m videos with multiple cross-modality teachers. In CVPR,2024.

[2] Brandon Castellano. Pyscenedetect. URL https://github.com/Breakthrough/ PySceneDetect/.

[3] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report [J]. arXiv preprint arXiv:2303.08774, 2023.

[4] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning, 2023.

[5] Zheng Zangwei, Peng Xiangyu, Li Shenggui, Liu Hongxing, Zhou Yukun, Li Tianyi, Peng Xiangyu, Zheng Zangwei, Shen Chenhui, Young Tom, Wang Junjie, and Yu Chenfeng. Opensora, 2024. URL https://github.com/hpcaitech/Open-Sora.

0 阅读:0
机器的心脏

机器的心脏

全球人工智能信息服务