大数据文摘授权转载自AI科技评论
作者:刘洁
编辑:岑峰
最近人工智能领域战火纷飞,各种观点打架。脾气火爆的人工智能之父Jürgen Schmidhuber也不断吐槽自己“被遗忘”了,不满之余还不忘四处宣讲自己全新的人工智能发展理念,誓要夺回大众视线。
不久前,他就接受了Machine Learning Street(MLST)的一次独家专访,回忆了自己在深度学习和人工智能方面的开创性工作,分享他对智能机器未来的展望,还重点回顾了世界模型带来的人工智能创新和LSTM和Transformer的开发及演变。
在Jürgen Schmidhuber看来,深度学习虽然不能解决像基础理论改进一类的问题,但在大部分问题上都表现出了很高的实用性,尤其是循环神经网络。
循环神经网络的强大之处在于,它本质上是一台通用计算机,所以理论上来任何能在计算机上执行的计算任务都能在循环神经网络上进行。只需要增加存储,就能让循环神经网络处理更复杂的问题。
不过Jürgen Schmidhuber也说了,一开始自己的想法还是很天真的,想让神经网络去模拟和预测未来的每一个小步骤,再从中挑选出能够带来最大回报的行动路径。
Jürgen Schmidhuber也找到了这个繁琐低效的流程的改进方式。他想把输入的那一长串的行动序列都拆分成不同的块,之后再以新的方式组合在一起。这样一来,就可以在不同的情况下调用相同的块,而不是再重新一步一步地预测抽取。
Jürgen Schmidhuber把这些理念和世界模型结合在了一起,让世界模型去预测环境未来发展的情况通过建立模型来推断下一个时刻的状态,并不断优化模型的表现。世界模型的结构类似于人脑中的“心智模式”,是对外部世界的一种内在模拟。
Jürgen Schmidhuber相信未来能够构建出一个足够通用的系统,让系统能够反复利用之前学习的内容,从神经网络中学习更多的子程序,最终实现系统的自主学习。
Jürgen Schmidhuber还从世界模型的发展中领悟到一个特殊的观点,整个科学史其实是一部数据压缩发展史。科学家们不断地从数据简化中发现新的科学技术,再利用新的科学技术压缩研究中面对的庞大数据。
在人工智能领域,这一现象更加明显。通过收集和分析大量数据,科学家们发现背后的规律,找到压缩数据的方法,从而提升人工智能的能力。未来,人工智能将学会自主进行数据压缩,理解数据背后的深层规则。
回顾人工智能的发展历程,上世纪90年代是个充满奇迹的时期。可以说没有那时候Jürgen Schmidhuber的种种发现,就没有现在火爆的生成式人工智能。
例如ChatGPT里的“G”(生成对抗网络)、“P”(自监督预训练)、“T”(Transformer),无一不是基于Jürgen Schmidhuber及其团队过去发表的成果。
1990年,Jürgen Schmidhuber提出了Adversarial Curiosity原则,包括一个生成器和一个预测器,让两个神经网络进行博弈和对抗。生成对抗网络(GAN)就是基于这个原则诞生的。
一年后他提出了线性Transformer,奠定了Transformer的基本原理,现在火爆的大语言模型都建立在Transformer的基础上。
那时Jürgen Schmidhuber也在深度学习策略方面实现了一个天才的想法,使用预测编码来大大压缩长序列,腾出空间让深度学习变成可能。这也是大名鼎鼎的自监督预训练的来源。
同样在1991年,他的学生提出了早期的LSTM概念,两人在1997年共同发表了LSTM的论文,这篇论文还成为了20世纪引用量最高的论文。
早期的大语言模型都是基于LSTM开发的,没有Transformer的某些限制,但并行化上不如Transformer高效。
不过Jürgen Schmidhuber并未止步于此,他和他的团队最近正在研发X LSTM,旨在打破这一局限,为人工智能领域带来新的突破。通过这些创新,Schmidhuber不断推动着人工智能的边界,为我们展示了一个充满可能性的未来。
以下是Jürgen Schmidhuber访谈的具体内容,AI科技评论摘取精华内容,作了不改原意的整理:
人工智能算法的局限和突破
MLST:再次欢迎来到MLST,非常荣幸能有您参加节目。
Jürgen Schmidhuber:我的荣幸,感谢邀请我。
MLST:你认为未来人工智能技术的突破会减少计算量吗?我上周采访了ARC challenge的获胜者Jack Cole,他认为我们需要离散程序合成,需要可能是神经引导的符号人工智能或神经符号人工智能。他还提到神经网络是“宽但浅”,而符号方法是“狭窄但深入”。你对此有什么看法?
Jürgen Schmidhuber:我完全同意。深度学习无法解决计算机科学中的很多问题,例如基础理论改进。深度搜索树更能确保新定理的正确性。虽然深度学习可以用来寻找捷径或识别模式。有很多问题可以通过非深度学习的方法更快更高效地解决。例如符号操作,当前的语言模型在遇到符号操作问题时,也是调用传统的符号计算方法来解决。
MLST:确实,我们常说神经网络是有限状态自动机,而不是图灵机。多年来,LeCun和Hinton等人试图反驳这个观点,他们认为神经网络原则上可以进行符号抽象操作。但你认为它们有很明显的区别,对吗?
Jürgen Schmidhuber:是的,循环网络就是一台通用计算机,所以原则上你可以在循环网络中计算任何在笔记本电脑上可以计算的东西。
MLST:一篇1995年的论文证明了这一点,它使用了任意精度,似乎有些作弊,通过增加权重的精度来假装是图灵机。
Jürgen Schmidhuber:你指的是Siegelmann的论文?那篇论文的论点不太有说服力,因为它需要对权重进行无限精确的计算。循环网络作为通用计算机的证明并非那么简单,但它确实表明在这些网络中可以实现NAND门。因此,任何笔记本电脑可以做的事情,循环网络也可以做到。
MLST:我同意,但很多人会提出图灵机可以通过扩展内存处理潜在无限数量的情况,这是否意味着图灵机提供了更多的可能性?
Jürgen Schmidhuber:这只是一个理论。图灵机是图灵在1931年提出的,用来讨论计算和人工智能的基本限制。图灵机的理论构造与现实可以构建的东西无关。在现实世界中,所有计算机都是有限状态的自动机。
MLST:理论上,Python解释器可以执行无限多的程序,而神经网络只能识别它们训练过的有限事物,这是两者的根本区别。
Jürgen Schmidhuber:理论上是这样,但在实际操作中,因为存储空间有限,所有计算设备都受限于有限状态自动机。我们能实现的,是由循环神经网络代表的有限状态自动机。有些任务,比如乘法运算或定理证明,某些自动机更高效。
这些自动机看似简单,但在神经网络中实现并不直观。理论上,它们是等价的,但在实用计算中,没有超越有限状态自动机的优越性。大多数实际问题都很简单,只需要有限存储和计算能力即可。
因此,我们专注于用循环神经网络或Transformer解决实际问题。
MLST:希拉里·普特南提到过多重实现性,任何计算都可以用不同的物理系统来表示。在我看来,多重实现性的奇妙之处在于其表示和概括能力。这种方式是人工智能的一种理想形式,可以通过紧凑的符号表示处理可能在无限多种情境下工作的事物,而不是单纯记住所有不同的操作方式。
Jürgen Schmidhuber:是的,但是这个概念很难划定边界。
我们在讨论奇偶校验问题之前,就明确了一点,Transformer无法学习奇偶校验的逻辑。奇偶校验是一个简单的问题,就是判断一串二进制数字中是奇数还是偶数。
要解决这个问题,你需要逐个读取位,你就有了一个很小的循环网络,只有一个从隐藏单元到自身的侦察连接。每当一个新单元进入,内部状态就会在1.0和0.0之间翻转。这个类似小逻辑电路的东西能解决Transformer解决不了的奇偶校验问题,循环神经网络当然也能做到。
这就是我从80年代开始对循环神经网络着迷的原因,因为它们在通用计算的意义上是通用的,只需在需要时增加存储,就能处理更复杂的问题。
MLST:我认为,RNN作为计算模型的基础和它作为可训练神经网络的实际用途是有区别的。因为1991年的那篇论文表明,RNN不能通过梯度下降进行训练,而只是以一种特殊的方式输入信息,使它表现得像图灵机。我们希望它们不仅可训练,而且有实际用处。
Jürgen Schmidhuber:确实,这就是一个问题。一个学习奇偶校验的小网络只有5个连接,梯度下降并不适用。
最好的办法是随机初始化权重,如果解决了训练样本的奇偶校验,它几乎肯定能泛化到所有长度。这个小网络比前馈网络更强大,如果训练一个前馈网络解决9位奇偶校验,它无法泛化到10位或11位,而这个小网络可以泛化到任何类型的奇偶校验输入。
我们有一个非传统的学习算法,就是随机搜索权重,只需尝试1000次,看是否解决了训练集中的问题。1997年的LSTM论文中也提到,有些问题不适合梯度下降学习,离散程序搜索可能更合适。权重矩阵是网络的程序,梯度下降有时会陷入困境,而其他搜索方法可以找到你真正需要的权重设置。
从1987年以来的研究来看,我们的研究涵盖了很多象征性的算法,这些算法专注于渐近最优问题解决者,如2003年的OOPS,这些算法与神经网络无关。但神经网络在很多实际问题上表现良好,即使没有理论证明。这两种方法的界限很难划定,因为它们之间的区别已经越来越模糊了。
在90年代初,我们有子目标生成器,可以做一些像是符号化的事,但其实是通过系统中的梯度下降实现的。
这个系统学会了把实现目标所必须执行的动作序列分解成有意义的块。这样你就可以从开始到目标,然后从子目标到目标,所有看起来有点像符号化的事情。
但现在我们发现神经网络也能实现,并且甚至可以通过梯度下降来对齐。当然我们也碰到了其他问题导致梯度下降失败。所以你不会考虑把梯度下降当作能解决所有问题的万能方法。这并不是神经网络的问题,因为神经网络可以用许多非梯度下降的方法来训练。
MLST:这是一个有趣的观点。你职业生涯中花了很多时间研究元学习,这涉及更高阶的学习方法。正如你提到的,在元学习中可以混合多种模式,比如随机梯度上升、符号模式以及复杂的元