OpenAI再次投下一颗重磅炸弹。
本月初,曾于去年夏季推出高人气语言模型GPT-3的OpenAI研究小组再次公布一套名为DALL-E的全新AI模型。虽然它在热度上不及GPT-3,但却很可能对AI的未来发展拥有更加深远的影响。
简而言之,DALL-E能够将文本描述作为输入,据此生成原始图像输出。(DALL-E这一名称,源自对超现实主义艺术家萨尔瓦多·达利及皮克斯工作室创造的可爱机器人形象WALL-E的致敬。)
例如,当输入“五角形绿色时钟”、“火球”或者“建筑物墙面上的蓝色南瓜壁画”之后,DALL-E即可生成令人震惊的准确视觉效果。
▲ 在要求生成“建筑物墙面上的蓝色南瓜壁画”后,OpenAI的全新深度学习模型DALL-E能够生成以上原始图像
DALL-E为什么意义重大?
首先,它预示着一种所谓“多模AI”的全新AI范式的出现。这种范式似乎代表着人工智能的未来面貌。以DALL-E为例,多模AI系统能够对多种信息模式进行解释、合成与翻译,由此把情境、语言与图像映射起来。虽然DALL-E并不是第一套多模AI方案,但却拥有迄今为止最令人惊叹的实际效果。
OpenAI联合创始人Ilya Sutskever总结道,“这个世界不仅由文字 构成。人类在表达之余,还会诉诸视觉。视觉元素非常重要。”
目前存在的大部分AI系统只能处理一种数据类型。以自然语言处理模型(NLP模型,例如GPT-3)只能处理文本;计算机视觉模型(例如人脸识别系统)只能处理图像。但人脑所表现出的智能明显适应性更强,所能处理的信息也更为灵活。
人类能够不断从五种感官处接收并整合信息——我们也正是通过视觉、听觉、触觉、嗅觉与味觉的结合理解周遭世界。以此为基础,我们又以语音、文本、肢体表达、面部表情与音乐等多种形式将信息传递回这个丰富多彩的世界。
通过将自然语言理解与视觉表示生成的能力结合起来(也就是将「阅读」与「视觉」相结合),DALL-E再次证明多模AI中蕴藏的巨大潜力。
这还仅仅只是开始。在之后的几个月乃至几年中,新的AI系统有望将音频、视频、语音、图像、书面文本、触觉以及其他要素无缝衔接起来。随着AI学会以越来越复杂的方式将多种信息结合起来,其理解世界并产生新颖洞见的能力也将迎来爆发式增长。
DALL-E还有另一层,或者说更为根本的重要意义:人类越来越无法否认人工智能中蕴含的巨大创造力。
DALL-E生成的图像远超人类的想象力范畴。这绝不只是对互联网上的现成图像进行简单修改——相反,这些是前所未有的效果图,其中的巧妙性与独创性足以令艺术家们为之赞叹。事实上,就连DALL-E的创造者们往往也理解不了其生成原理。
下面来看DALL-E的几幅作品。首先是“一碗拉面表情符号”,接下来的一幅是“牛油果组成的企鹅”。如果这些成果来自人类设计师,我们无疑会将其视为实实在在的创作产物。既然如此,我们还有理由否定或者拒绝DALL-E吗?
▲ DALL-E根据“一碗拉面表情符号”输出的图像
▲ DALL-E根据“牛油果组成的企鹅”生成的图像
凭借这种强大的创造力,DALL-E足以在产品设计、时尚以及建筑等领域证明AI技术的现实意义。不久之后,人类设计师也许会习惯使用DALL-E等AI系统作为构思助手甚至是灵感来源。
举个例子,在要求设计“甜甜圈风格的扶手椅”时,DALL-E带来了种种富有构图的选择。当然,它的设计与外观还颇具水准。不难想象,未来一定会有家具设计师反复使用DALL-E以探索模型输出,调整输入文本进行设计迭代,最终将AI元素引入自己的作品当中。从汽车到灯具、从珠宝到房屋,类似的创意过程将适用于众多产品。
▲ DALL-E根据“甜甜圈风格的扶手椅”生成的输出图像
当然,DALL-E还远非完美,它所生成的图像也并不总能准确表现输入文本:例如,它经常会在颜色、数量或空间关系方面犯错误。
OpenAI公开发布的DALL-E工作示例已经由CLIP神经网络进行排序与筛选。对于每项文本输入,筛选后系统将仅显示512个样本中置信度最高前32个样本。换句话说,DALL-E实际生成的图像更多,只是其中大部分效果不佳。
综上所述,DALL-E的创造能力令人惊讶,而这项技术本身也仍在快速迭代当中。
与AI技术的其他重大发展一样,DALL-E再次让我们想起一个古老的问题:机器的智能水平是否越来越接近人类?
一方面,DALL-E的诞生激发起关于超级智能技术的夸张表述。但在另一方面,以著名深度学习评论家Gary Marcus为代表的怀疑论者,则认为DALL-E并没有给AI技术的发展带来任何切实推动。
Marcus的观点值得认真对待。深度学习(包括为DALL-E、GPT-3提供基础的前沿transformer架构)在智能概念建模方面仍然存在着严重的局限性。
但从某种意义上讲,这场争论其实偏离了真正的重点。无论OpenAI的新模型是否代表着迈向“人工通用智能”的下一步,也无论深度学习能否真正带来与人类拥有同等认知水平的机器智能成果,DALL-E本身仍然具备非凡的新能力——这已经成为不争的事实。
DALL-E及其后续方案有望在人与机器间的创造关系中带来新的可能性,并由此衍生出巨大的经济价值,为新一波创新型初创企业及产品奠定基础。
面对无限的可能,我们只需要充满期待。