在写关于Sora的时候,很难不感觉自己的思维都在融化。但在OpenAI令人惊讶的人工智能公告之后,我们已经有了最好的证据,了解一个尚未受到监管、不考虑后果的科技产业想要向你销售什么:一套耗能巨大的黑盒AI产品,能够产生逼真的媒体内容,挑战法律、隐私和客观现实的边界。
除非有果断、深思熟虑、全面的监管措施,否则在线环境很有可能变得几乎无法辨认,甚至比以往更加不可信。当人们对超真实的毛绒猛犸象和纸艺海洋景观的惊叹感逐渐消退,首席执行官Sam Altman的最新项目仍然令人担忧。
Sora(日语意为“天空”)背后的概念并不是什么特别新颖的东西:据说它是一个能够根据用户的描述性文本输入生成高清视频的人工智能程序。简单来说,据报道,Sora将DALL-E提供的文本到图像扩散模型与一种被称为transformer的神经网络系统相结合。虽然transformer通常用于解析大规模的数据序列,比如文本,但OpenAI据称将transformer技术调整以类似的方式处理视频帧。
“据说”,“据报道”,“据称”。在描述Sora时,所有这些警示语都是必需的,因为正如MIT Technology Review所解释的那样,只有在媒体机构同意在公司官方公告之后“征求外部专家意见”之后,OpenAI才会授予对昨天的示例视频片段的访问权限。而且即使OpenAI预览了他们最新的实验,也没有发布技术报告或展示模型“实际工作”的后端演示。
这意味着,在可预见的未来,没有任何一个外部监管机构、选举官员、行业监察机构或卑微的科技记者会知道Sora是如何生成由人工智能产生的最神秘的媒体的,Altman的公司从哪些数据中获取了训练其新程序所需的信息,以及需要多少能量来驱动这些一分钟的视频渲染。你只能听凭OpenAI选择与公众分享什么——这家公司的CEO反复警告说,人工智能带来的灭绝风险与核战争不相上下,但只有像他这样的人才能被信任,拥有资金和资源来防止这种情况的发生。
我们达到这个地步的速度就像这些视频本身一样让人眼花缭乱。昨天,New Atlas对这一情况进行了简明扼要的概括,OpenAI的示例视频并不完美,但在短短九个月内,我们已经从“搞笑恐怖”的人工智能威尔·史密斯吃意大利面,转变为几乎逼真的高清视频,描绘出拥挤的城市街道、已灭绝的动物和想象中的儿童幻想角色。在可能是现代历史上最具影响力的美国总统选举即将来临的九个月后,类似的技术将会是什么样子?
一旦你克服了Sora的魔术表演的印象,很难忽视其中令人不安的暗示。这些视频是技术奇迹。当然,Sora可能会产生创新的、有趣的,甚至有用的结果。但如果有人利用它产生除了“创新”、“有趣”或“有用”之外的任何东西呢?人类比任何生成式人工智能程序都更加聪明。到目前为止,破解这些东西只需要一些专注、耐心和将技术用于不良目的的渴望。
像OpenAI这样的公司承诺他们正在开发安全协议和行业标准,以防止恶意行为者利用我们新的技术世界——像Sora这样的项目继续鲁莽地开拓着未知的领域。然而,他们在实施最基本的保障措施方面表现惨不忍睹:Deepfakes滥用人体,学区利用ChatGPT默认同意法西斯主义书籍禁令,事实和虚构之间的界线继续模糊不清。
OpenAI表示目前没有计划立即公开发布Sora,并且他们正在进行红队测试以“评估可能造成伤害或风险的关键领域”。但是,除非有任何形式的监管反对,否则OpenAI有可能尽快释放Sora。
“Sora作为能够理解和模拟真实世界的模型,我们认为这是实现人工通用智能的重要里程碑。”OpenAI在昨天的公告中再次明确提到了公司创造几乎无法与人类区分的人工智能的目标。
Sora,一个用于理解和模拟现实世界的模型——至少是对剩下的那部分世界进行模拟。