一、Sora引发的关注以及其重要地位。
Sora是OpenAI推出的文生视频大模型。许多人认为它开始具备理解物理世界规律的能力,使我们向真正的通用人工智能迈进了一步。要理解Sora是否在理解世界,需从它的实现过程说起。
首先,什么是视频?将一段视频拖入剪辑软件会发现视频是连续的图片,以每秒最少24帧的速度播放这些静止图片,可骗过大脑成为视频。所以让模型从文字生成视频,要先知道如何从文字生成图片。扩散性模型在生成图片方面有独特之处,不断给图片加入高斯噪声使其变模糊,记录过程让机器学习,通过数学公式计算得到特殊公式。网络可预测充满噪声的图片所加噪声,不断减去预测噪声可得到清晰图像,但这也是AI绘图不稳定性的原因。
二、技术核心揭秘
最早的扩散性模型(DDPM)存在训练数据大、像素信息复杂等问题。一张512×512的RGB图像可转化为786,432维向量空间,直接训练易使GPU报错且训练推导慢。后来有人想到先对图片采样压缩再训练,2021年Robin发布论文提出潜空间概念。潜空间是一种有目的的压缩算法,能保留图像特征,可根据解码算法算出类似图像,还能提取更抽象特征。
在降低训练难度后,需解决文字和图像的联系问题。最早的DDPM训练无提示词概念,生成不同内容需专门训练不同模型。Robin的论文引入conditioning模块,借助OpenAI的clip工作将文字信息编码化,丢到噪声预测器中定向控制生成图像,得到可根据提示词生成不同图像的扩散性模型。但从文字生成图像只是生成视频的入场券,因为模型未学会上下帧关联性。
对于视频模型,上一张和下一张图片可能接不上,通常采用让每张图片参考上一张内容并插帧过渡等方法但效果不佳。Sora如何生成稳定视频呢?首先要获得更多数据,OpenAI借助过去的技术,在训练Dall E2时把视频丢给Dalle E3得到描述文字。有了准确描述后,进行正式训练步骤,即学会压缩。用浅空间方式对数据降维和保留特征。解决数据来源和压缩问题后,就是训练视频。OpenAI对数据进行拆分和重组,采用patch方式,拓宽了训练素材,避免了统一素材带来的裁剪和主题丢失问题。
sora生成的视频截图
三、局限与思考
Sora成功的关键在于将视频生成拉到Transformer领域,凭借在ChatGPT上的经验打败对手。Transformer的注意力机制是GPT跨长文阅读和记忆的基础,它根据输入文字预测下一个字的概率,通过自注意力和多头注意力计算,汇总信息生成新数组,数组中的数字就是下一个词出现的概率。OpenAI将Transformer加入扩散型模型,替代用卷积计算处理噪声的unit网络,加强了Sora 提取重点的能力,使其能记住视频内容,推断未来发生不同事情的概率。
最后总结Sora的训练流程:先将视频压缩丢入潜空间降低训练难度,然后切分视频排列打包成patch,丢到扩散性模型里加噪声训练,生成视频时从噪声开始,输入condition和初始噪声生成patches,在潜空间重组为视频再转化回数据空间。此外,OpenAI还做了一个前置工具帮助用户升级提示词。
四、未来之路
目前Sora对世界的理解有局限性,它的理解更像是Transformer注意力机制的附带品,虽能生成符合直觉的画面,但不能真正解决问题。Sora未来可能在现有基础上发展出更强大的模型,其价值在于验证了一个方向。但目前它生成的视频仍存在很多细节问题,没有大家想的那么颠覆。在工业上,定制化加开源的产品更有竞争力。