OpenAI发布Sora开启AI视频时代,一镜到底引领未来

斜阳云飘 2024-02-18 21:37:17

近日,OpenAI发布了一项引领AI视频时代的突破性成果——首款文生视频模型Sora。这款模型不仅能根据文字指令创造出逼真而富有想象力的场景,还能生成长达1分钟的一镜到底的超长视频。相较于其他AI视频工具如Runway Gen 2、Pika等仍在突破几秒内的连贯性,OpenAI的Sora已经达到了史诗级的纪录。

来百度APP畅享高清图片

一、技术突破引领AI视频新时代

Sora的最大亮点在于其一镜到底的能力,即使在60秒的视频中,女主角、背景人物都保持了惊人的一致性。而OpenAI是如何实现这一壮举的呢?根据官网介绍,“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。” 这一技术突破具有革命性的意义,甚至连OpenAI的创始人Sam Altman都为之沉迷。

Sora在多项技术方面都取得了破纪录的成就。借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,实现丰富的情感表达。而在视频生成方面,它不仅能包括多个角色,还能精确描绘对象和背景的细节,使得人物瞳孔、睫毛、皮肤纹理等看不出破绽,真实感十足。

二、Sora的世界模型之谜

Sora引起关注的另一个亮点是其似乎已经具备了世界模型的雏形。通过观察大量数据,Sora竟然学会了许多关于世界的物理规律,甚至能够准确理解毛发纹理物理特性。这一点让人不禁联想到通用人工智能(AGI)的可能性,Sora的世界模型似乎是通往AGI的重要一步。

当然Sora并非完美无缺,仍然在模拟复杂场景的物理效果、空间细节的处理等方面存在一些挑战。这也让人们对于虚拟与现实的界限保持了一丝清晰,但同时也让人们对未来的技术发展充满了期待。

三、Sora具有卓越的性能

Sora采用了扩散模型,通过噪声去除过程生成视频,具有卓越的性能扩展。基于DALL·E和GPT模型的研究成果,Sora能够根据文本指令生成满足特定要求的视频,并展现对电影拍摄语法的自发理解。作品欣赏中展示的一系列场景,无论是火车穿越东京郊区还是雪地草原上的羊毛猛犸象,都展现了Sora在视觉呈现上的出色表现。

四、未来重塑视频行业

Sora可能得到游戏引擎的支持,而Soumith Chintala甚至猜测Sora可能由虚幻引擎5提供支持。这种数据驱动的物理引擎模拟使Sora学会了复杂的渲染、物理、长期推理和语义理解,这可能是其如此出色的原因。

尽管文本转视频技术对于传统电影制作的威胁可能还需要一些时间,但Sora和类似的程序有望在社交平台如TikTok上彻底改变游戏规则。未来的十年可能会成为视频领域的疯狂十年,而Sora正是引领这一变革的领先者。

在技术介绍中,Sora采用了Transformer架构,将视频和图像分解为小的数据单元,实现了在更广泛的视觉数据上的训练。Sora不仅能够一次性生成完整的视频,还能够延长已生成的视频,为理解和模拟现实世界奠定了基础。

老斜说
0 阅读:3
斜阳云飘

斜阳云飘

我有一壶酒, 足以慰风尘。尽倾江海里, 赠饮天下人