OpenAI发布Sora开启AI视频时代，一镜到底引领未来

近日，OpenAI发布了一项引领AI视频时代的突破性成果——首款文生视频模型Sora。这款模型不仅能根据文字指令创造出逼真而富有想象力的场景，还能生成长达1分钟的一镜到底的超长视频。相较于其他AI视频工具如Runway Gen 2、Pika等仍在突破几秒内的连贯性，OpenAI的Sora已经达到了史诗级的纪录。

来百度APP畅享高清图片

一、技术突破引领AI视频新时代

Sora的最大亮点在于其一镜到底的能力，即使在60秒的视频中，女主角、背景人物都保持了惊人的一致性。而OpenAI是如何实现这一壮举的呢？根据官网介绍，“通过一次性为模型提供多帧的预测，我们解决了一个具有挑战性的问题。” 这一技术突破具有革命性的意义，甚至连OpenAI的创始人Sam Altman都为之沉迷。

Sora在多项技术方面都取得了破纪录的成就。借助于对语言的深刻理解，Sora能够准确地理解用户指令中所表达的需求，实现丰富的情感表达。而在视频生成方面，它不仅能包括多个角色，还能精确描绘对象和背景的细节，使得人物瞳孔、睫毛、皮肤纹理等看不出破绽，真实感十足。

二、Sora的世界模型之谜

Sora引起关注的另一个亮点是其似乎已经具备了世界模型的雏形。通过观察大量数据，Sora竟然学会了许多关于世界的物理规律，甚至能够准确理解毛发纹理物理特性。这一点让人不禁联想到通用人工智能（AGI）的可能性，Sora的世界模型似乎是通往AGI的重要一步。

当然Sora并非完美无缺，仍然在模拟复杂场景的物理效果、空间细节的处理等方面存在一些挑战。这也让人们对于虚拟与现实的界限保持了一丝清晰，但同时也让人们对未来的技术发展充满了期待。

三、Sora具有卓越的性能

Sora采用了扩散模型，通过噪声去除过程生成视频，具有卓越的性能扩展。基于DALL·E和GPT模型的研究成果，Sora能够根据文本指令生成满足特定要求的视频，并展现对电影拍摄语法的自发理解。作品欣赏中展示的一系列场景，无论是火车穿越东京郊区还是雪地草原上的羊毛猛犸象，都展现了Sora在视觉呈现上的出色表现。