量变引起质变:聊聊大模型中的“涌现”现象

活在信息时代 2023-03-18 23:59:44

自从ChatGPT爆火以来,人们都对于人工智能到底能不能真正实现抱有强烈的兴趣。从目前来看,即使最好的训练模型也只是基于自己学习到的固定概率参数组合来进行判断,然后给出一个概率最大的结果而已。

这样还远远谈不上拥有自己的思维,依然是机械的按部就班的执行而已。

但是大模型中的一个现象,依然引起了科学家们的强烈兴趣。这就是大数据模型中的“涌现”(emergence)现象。

那么什么是涌现现象呢?这个词的定义是这样的:涌现(英语:emergence)或称创发、突现、呈展、演生,是一种现象,为许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。(源自维基百科)

直白一点说,就是一些简单普通甚至是无意义的操作,在相互作用之后,产生了具有极大意义的行为。例如说山顶的雪化成水,水顺着河流流向大海,海水蒸发成水蒸汽进入了大气,而大气又把水气运到了山顶。看似每个环节都很简单,然而他们聚合在一起,却形成了人们赖以生存的水循环系统。

这就是说,当孤立的每个能力被以某种方式突然组织起来的时候,却爆发出很强大的能力。

在物理、生物、和计算机科学领域里,涌现已经被谈论了很长时间。而在大型自然语言处理(NLP)模型中,涌现能力却被科学家们所观测到。

在LaMDA、GPT-3、Gophper等语言模型中,科学家们观测到,当训练量超过某个阈值的时候,模型的精度突然会暴增。在训练量较小的时候,其结果与随机结果(瞎蒙)差不多,但是当训练量超过某个阈值的时候,精确度突然大幅提升。

目前对于涌现还没有令人信服的解释,但是我们可以以一个简单的例子来尝试理解为什么涌现这种现象会产生。很多人都玩过一个游戏,你可以问几个问题,然后来猜对方到底是什么。例如说,它是一种生物吗?是的。它是植物吗?不是。它是犬科动物吗?不是。它是猫科动物吗?是的。它是小猫吗?不是。他生活在非洲吗?是的。等等。对于一个游戏 ,如果我们只允许问三个问题的话,那么毫无疑问,对于猜测这个物品到底是什么,意义是不大的。但是如果我们穷举出世界上的每一个名词的话,那么我们毫无疑问就会得到答案。

而涌现,则可能产生于基于我们世界所知道知识的一个能够明确猜到是什么的一个极小值。

如果用公理化的语言来解释的话,那就是,若一个多步推理需要l步的序列计算,这可能需要模型至少有o(l)层的深度。而更多的参数和更多的训练则使得我们更接近于这个深度。

基于此,似乎我们的人工智能之路开始有了一点曙光。如果我们能够有一个模型,他对于世界上的每个存在的名词、动词或下一步决策,都有严格训练的模型能够对其做出准确判断。那么我们似乎就得到了一个人工智能。

对于一个模型而言,我们通常以计算量、模型参数数量和训练集规模来衡量其大小。当前,ChatGPT用了大约1750亿个底座参数,和大约45TB的数据集。而一个人脑大约有860亿个神经元,每个神经元可以和其它神经元连接,虽然大脑不同区域的神经元连接数量不同。但是平均来讲,大约每个神经元与其它7000个神经元相连接。所以大约有860亿*7000,大约有6000万亿连接,这个规模远远大于ChatGPT的数量。

如果把ChatGPT的参数数量提升到人脑的水平,又会涌现出什么样的结果呢?值得期待。

喜欢本文的话,欢迎关注活在信息时代哦:)

0 阅读:68
活在信息时代

活在信息时代

关注信息时代的技术发展与社会伦理变迁