图灵奖得主杨立昆：LLM缺乏对世界的理解力、孩子看到的视觉信息量媲美大...

来源：图灵人工智能

本文讲座图文讲稿整理自Yann LeCun在Hudsonforum Youtube频道的讲座，公开发表于2024月10年13日。原始内容参考：https://www.youtube.com/watch?v=4DsCtgtQlZU

杨立昆在Hudsonforum的主题讲座★

内容导读：

Yann LeCun在本次演讲中主要阐述了以下观点：

对人类水平AI的需求与现状差距：我们迫切需要人类水平的AI来增强人类智能，提高生产力与创造力。但当前AI系统（包括LLM）缺乏理解世界、记忆、直觉、常识、推理和规划等人类能力。现有AI技术的局限性：当前AI的成功依赖于自监督学习，特别是通过重建来学习表示。但这种方法主要局限于离散数据（文本等），无法处理连续数据（视频等），也无法实现真正的推理和常识学习。Moravec悖论体现了这一点：对人类来说简单的事，对机器却很难；反之亦然。数据量与学习方式的差异：人类幼儿在短短几年内获取的数据量与大型语言模型相当，但学习方式截然不同。人类的学习依赖于丰富的多模态数据（视觉、听觉等），而不仅仅是文本。目标驱动AI架构的提出：为了克服现有AI的局限，演讲者提出了一种名为“目标驱动AI”的架构。该架构的核心是通过优化算法进行推理，而非简单的逐层前馈计算。这允许系统根据目标和约束条件，规划并执行一系列动作。世界模型与层次化规划的重要性：目标驱动AI架构的关键在于“世界模型”，它模拟了世界的运行方式。层次化规划是实现复杂任务的关键，但目前AI系统在这方面能力不足。学习世界模型的挑战与方法：学习世界模型的关键在于如何从视频或现实世界中学习常识和物理直觉。单纯预测视频像素的方法失败了，演讲者建议采用“联合嵌入预测架构”（JEPA），学习抽象的表示，并在该表示空间中进行预测。JEPA架构的优势与训练方法： JEPA架构避免了生成模型的局限，更有效地学习世界表示。训练JEPA需要防止模型坍塌，演讲者提出了一些方法，例如信息量最大化和蒸馏式方法。开源AI平台的必要性：为了促进AI的公平发展和文化多样性，AI平台必须开源，这需要像Meta和IBM这样的公司共同努力。通往人类水平AI的道路：通往人类水平AI的道路漫长而充满挑战，并非一蹴而就，而是一个渐进演化的过程。目标驱动AI架构能够确保AI系统在超越人类智能的同时保持可控。杨立昆简介杨立昆（Yann LeCun）是一位法国裔美国计算机科学家，被誉为“深度学习三巨头”之一。他以在机器学习，尤其是深度学习领域的研究而闻名，其贡献包括卷积神经网络（CNN）的发明和推广。LeCun于1960年出生于法国巴黎，并在巴黎第六大学获得计算机科学博士学位。他于1988年加入贝尔实验室，并在那里开始了对CNN的研究。他的早期工作为后来图像识别和计算机视觉领域的突破奠定了基础。LeCun于2003年加入纽约大学担任教授，并于2013年加入Facebook（现Meta）担任人工智能研究院（FAIR）的创始主任。他领导团队开发了许多重要的人工智能技术，应用于图像识别、自然语言处理、机器翻译等领域。LeCun是美国国家工程院院士，并获得了许多奖项，包括图灵奖（2018年，与Yoshua Bengio和Geoffrey Hinton共同获得）。他是一位活跃的研究者和演讲者，致力于推动人工智能领域的进步和发展。讲座图文讲稿我将讨论人类水平的AI，或者我们如何实现它，以及我们又将如何无法实现它。首先，我们确实需要人类水平的AI，因为在未来，我们大多数人都会戴着智能眼镜或其他类型的设备，我们会与它们交谈，这些系统将拥有助手，也许不仅仅是一个，可能是一整套助手。

这将导致我们每个人基本上都会有一支由智能虚拟人员组成的团队为我们工作。所以这就像每个人都会成为老板，只是不是真实人类的老板。我们需要构建这个系统，基本上是为了增强人类的智力，使人们更有创造力、更高效等等。但为此，我们需要能够理解世界、能够记住事物、具有直觉、具有常识、能够像人类一样推理和计划的机器。尽管你可能从一些最热情的人那里听到过，但目前的AI系统没有任何能力做到这些。所以这就是我们需要的东西，能够学习的系统。

基本上是对世界进行建模，拥有关于世界如何运作的心智模型。每只动物都有这样一个模型。你的猫肯定有一个比任何已建成或构思的AI系统都更复杂的模型。拥有持久记忆的系统，而当前的LLM没有。能够规划复杂动作序列的系统，这在今天的LLM中是不可能的。以及可控且安全的系统。所以我将为此提出一种架构，我称之为目标驱动型AI。大约两年前，我写了一篇关于这方面的展望论文，并发布了它。FAIR的许多人基本上都在努力实现该计划。FAIR曾经结合了长期的蓝天研究和更应用性的项目。但Meta在一年前创建了一个名为GenAI的产品部门，专注于AI产品。他们从事应用研发。因此，FAIR现在已被重新导向更长期的下一代AI系统。我们基本上不做LLM。

因此，包括LLM在内的AI的成功，以及过去五六年中许多其他系统，都依赖于一组我称为自监督学习的技术。使用自监督学习的一种方法是，自监督学习包括训练一个系统，不是为了任何特定任务，而是基本上训练以某种方式良好地表示输入。一种方法是通过损坏后的重构。例如，你取一段文本，通过删除单词或更改一些单词来损坏它，它可以是文本，也可以是DNA序列、蛋白质或任何其他东西，甚至在某种程度上是图像，然后你训练一个巨大的神经网络来重构完整的输入，即未损坏的版本。好吗？这是一个生成模型，因为它试图，它试图重构原始信号。

所以红色方框就像一个成本函数，对吧？它计算输入y和重构y波浪线之间的距离。这就是学习针对系统中的参数最小化的内容。在这个过程中，系统学习输入的内部表示，可用于各种后续任务。当然，它可以用来预测文本中的单词，这就是自回归预测发生的情况。因此，LLM是这种情况的一个特例，其中架构的设计，一个特殊的架构，其中该事物的设计方式是，为了预测一个项目、一个标记或单词，它只能查看位于其左侧的其他标记。如果你想的话，它不能展望未来。所以如果你训练一个系统来做到这一点，对吧，你向它展示文本，你要求它预测文本中的下一个单词或下一个标记，那么你当然可以使用这个系统来预测下一个单词，然后你将下一个单词移入输入，然后预测第二个单词，并将它移入输入，预测第三个单词，这就是自回归预测。这就是LLM所做的。这不是一个新概念，它可以追溯到克劳德·香农，所以它可以追溯到50年代。那是很久以前的事了。但改变的是，现在我们拥有这些巨大的神经网络架构，可以在海量数据上进行训练，并且看起来某些特性从中浮现出来。好的，但是这种自回归预测有一些主要的局限性。所以在通常意义上，这里没有真正的推理。还有一个局限性，那就是这只能用于以离散对象、符号、标记、单词等形式向你提供数据的形式，这些东西本质上是可以离散化的。而我们仍然缺少一些重要的东西才能达到人类水平的智能。我在这里不一定指的是人类水平的智能，但即使是你的猫或你的狗也能做到一些令人惊叹的壮举，而这些壮举仍然完全超出了当前AI系统的范围。任何一个10岁的孩子是如何学会收拾餐桌和装满洗碗机的呢？10岁的孩子可以一次学会这个，对吧？不需要练习或任何东西。一个17岁的孩子大约需要20