Sora来袭!OpenAI“文字转影片”太震撼马斯克惊喊取代人类

科智时势 2024-02-28 09:27:20

不出手则已,一出手就是横扫市场! OpenAI继2022年11月底发表文字生成式AI「ChatGPT」,相隔才短短15个月,2月16日又推出影片生成AI模型「Sora」,一举将AI应用从文字升级到影片,立马惊艳全球,市场甚至对一分钟以内短影片的动画及广告产业,涌现唱衰声浪。

对于「Sora」的横空出世,有网友在推特上发文,「gg Pixar(皮克斯动画工作室)」,而特斯拉执行长马斯克更直接回文表示,「gg humans」(意指AI将取代人类)。

而就在OpenAI发布「Sora」的前几个小时,Google也在15日发表了最新的Gemini 1.5模型,可一次处理大量信息,包括1小时的影片,不过经过网友们的测试,Gemini 1.5最后生成的产品一定都会「种族多元化」,遭到 Google暂时下架。

其实在2023年,也有数个影像生成软件出现,包括RUNWAY Gen-2在6月推出,11月又有Stable Video Diffusion、Pika等模型推出,不过这些模型的影片生成能力,大多仅约3、4秒左右,最长不超过10秒。

而OpenAI的「Sora」一亮相,就立刻震撼全市场。 「Sora 是一个AI模型,可根据文字指令创建现实且富有想象的场景,产生长达一分钟的视频,同时保持视觉品质并遵守用户的提示。」 也就是说,只要输入「Prompt(提示)」文字叙述下指令,Sora就可以生成最长约1分钟的真实度不低的影片。

OpenAI展示数十个由Sora所生成的影片,内容拟真度极高,像是「一名穿着时尚的女子走在充满温暖霓虹灯及招牌的东京街头。 她身着黑色皮夹克、红色长裙及黑色靴子,拎着一个黑色包包,戴着太阳眼镜,擦着红色口红,走起路来自信又随性。 潮湿的街道反射出七彩灯光,行人熙来攘往。」 但影片也出现谬误,例如「一个人在跑步机上跑步的场景,以35毫米拍摄的电影胶片。 跑者却是逆向在跑步机上跑步。」

对此,OpenAI解释,「我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界互动的问题。」 「现实的物理原理及因果关系,仍是Sora最大的问题所在。」

尽管仍不尽完美,「相较于之前的影片生成AI,几乎是小学生对于比大学生。」 有Youtuber如此形容。

M观点主持人Mulia认为,「Sora」的出现,势必严重冲击动画及广告产业,尤其广告,一般顶多就是30秒左右,刚好就是「Sora」可处理的长度,他甚至预期,5年后,也许小说家可透过ChatGPT,将小说内容生成剧本,再透过Sora生成一小时影片。

知识力科技执行长曲建仲指出,目前OpenAI对于原理公开并不多,基本上就是使用了「变换模型(Transformer model)」及「扩散模型(Diffusion model)」来对影片结构做了全面创新。 扩散模型(Diffusion model)是将真实图片逐渐加入噪声(Noise),让图片慢慢变成完全的噪声图片,再反转这个过程,逐渐去除噪声(Denoise),让图片回复为原来的样子,叫做反向过程(Reverse process)。

「ChatGPT利用token(类似单词的文字语意)来进行文字接龙,产生连续且具有意义的句子及文章,Sora就是利用图片版的token也就是Patch,来创造出具有连贯性的图片。」 Youtube频道泛科学院解释道。 「这也是AI变成人的里程碑。」

对于Sora的出现,「Sora对于动画产业的影响,并非是全面冲击,反而应该要这样来看,毕竟AI的内容基础,还是由照片来生成,也就是说,如果是纪实类的影片,例如人物类,由于AI已经很容易收集到相关内容所需资料,影响程度就会比较大,至于是创作型的影片,那Sora反倒是一个不错的工具。」 动画导演萧永生告诉CTWANT记者说。

Youtube频道中二见习中制作人Raymond表示,很多影片在正式拍摄之前,都会有分镜师先进行分镜,最后再由导演来决定如何拍摄,Sora的出现,对于分镜的作业将会有明显的冲击,但是对于编剧及导演来说,则是一个很好用的工具。 「对于很多讲述性质的Youtube频道来说,Sora可以生成很多不同段的影片,让他们的影片更加丰富。」

至于Sora需要多少的算力,来生成一则长度约60秒的影片? 目前在论坛Reddit就有网友在讨论,也有引用到外媒《Wired》的报道,推估,Sora生成一个1分钟长度的影片,认为大约需要一个小时。 这也说明了目前Sora并没有开放给一般民众使用,而是仅给OpenAI内部及部分的动画家、导演等来测试。

而Sora何时会像ChatGPT一样普及? 目前OpenAI并没有时间表。 OpenAI正在跟错误讯息、仇恨内容和偏见等领域的领域专家对模型进行对抗性测试,另外也在建立工具来帮助侦测误导性内容,例如侦测分类器,以判断Sora何时产生影片。

0 阅读:16

科智时势

简介:专注智能时代的未来趋势