2024年2月15日,OpenAI 推出了文本转视频模型 Sora,使用 AI 将您的书面描述转换为长达一分钟的视频。OpenAI公司最知名的产品 Chatgpt,Chagpt 目前领先其他公司的同类产品,包括但不限于:Google的“Gemini”,百度的“文心一言”等。
此次OpenAI 推出文本转视频模型 Sora,为了巩固自己在人工智能的领先地位。
Sora是什么?公共信息:
Sora是一个可以通过文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。
Sora这一名称源于日文“空”(そら sora),以示其无限的创造潜力。[1]其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。[2]模型的训练数据既包含公开可用的视频,也包括了专为训练目的而获授权的版权视频,但OpenAI没有公开训练数据的具体数量与确切来源。
Sora 效果注意Sora这个词的,词源来自日文“空”。所以OpenAI 官方发布的应用案例,就是来自日本东京街头。
输入提示词(原提示词是英文):
一位时尚的女性走在东京街头,周围是温暖闪亮的霓虹灯和活力四射的城市标识。她穿着一件黑色皮夹克,一条长长的红色连衣裙,搭配黑色靴子,并背着一个黑色手提包。她戴着墨镜,涂着红色口红。她步履自信,悠然自得地走着。街道潮湿而反光,呈现出丰富多彩的灯光的镜面效果。许多行人在街上走动。
这些提示词,Sora生成的视频如下。
视频长度为60秒,1分钟的时间。
整个视频是流动的,所有元素都在流动。
Sora 生成的影片,并不是简单的按部就班的“字面”意思。
Sora会运镜,她就像个导演,真正的生成影片。
一分钟的时长,有远景中景近景,特写大特写,Sora是在理解你的提示词。
Sora 影响以往的文本生成视频,仅仅是多个视频片段拼凑,而且基本上在10秒钟。在Sora之前,文本生成视频连贯的视频,没有能够达到60秒的。
此次的演示Sora生成的视频,不但整体是连贯的风格统一,而且已经“机械化思考”如何制作一部优秀的短片。
Sora 使用目前 Sora 邀请制,还没有大规模应用。
Sora 未来Chatgpt 开启了人和AI对话的时代,人机交流。
现在人类获取信息的方式中,视频是最重要的渠道。Sora 如果能极其快速的输出有“特定自我观点”的视频,那么人工智能就能直接影响人类了。