揭秘AI大语言模型：如何将全世界知识压缩进一个“超级图书馆”？

前几天参加了一个关于人工智能的讲座，其中讲师提到了一个有趣的观点：“我们可以把大语言模型看作是一个超级图书馆。”这个比喻让我眼前一亮。我们通过向模型提问，实际上就是在查询资料、获取信息。

当然，这个“图书馆”真的能包含全世界所有的资料吗？资料的准确性又如何呢？

关于准确性的问题其实挺复杂的，因为即使是全世界的知识都被压缩成一个模型，仍然会有不同的观点、甚至是对立的观点。即便模型把这些信息压缩进去，也不能保证完全消除争议。不过，我们确实有一些技术手段，能尽量保证信息的准确性。

今天，我想探讨的重点是：AI大语言模型是如何将海量数据进行压缩的？这个压缩过程有什么限制？

最近，我读了一本书《揭秘大模型：从原理到实战》，其中详细讲解了大模型如何实现数据压缩。今天，我也想分享书中的一些见解，并且解释其中的一些数学原理。

数据压缩的基本概念

首先，我们需要了解什么是“数据压缩”。在信息论中，数据压缩指的是通过更少的比特（信息单位）来表示数据。无损压缩是一种特别的压缩方法，它的特点是：压缩后的数据在解压时完全恢复原样，内容不会丢失。

一种常见的压缩方法是通过概率分布来进行编码。我们常听说的霍夫曼编码和算术编码都是基于这种方法的。

信息量和熵

为了理解数据如何被压缩，我们需要先了解两个基本概念：信息量和熵。

信息量（Information Content）表示某个事件发生时的不确定性。假设我们正在猜测一个字母，若它出现的概率很高（比如字母“E”在英语中出现频率高），那么它携带的信息量就较低；如果某个字母的出现概率很低，那么它携带的信息量就较高。

发生的概率。概率越低，信息量越大。

接下来，我们有一个概念叫做熵。熵其实是所有可能事件的信息量的平均值，它可以告诉我们一个系统的平均不确定性。熵越大，表示信息越复杂，越难预测。

就是熵，表示该系统的平均信息量。

压缩数据的例子

让我们以文本为例，假设我们有一个包含256个符号的词汇表（也就是常见的8比特编码）。如果每个符号的出现概率完全相同，那么每个符号的信息量就是：也就是说，每个符号都需要8比特来表示，这就是我们常见的基准传输方法。如果符号的出现是均匀的，这就是最简单的编码方式。

自回归神经网络与无损压缩

接下来，我们讨论大语言模型是如何通过神经网络来实现数据压缩的。比如，GPT这样的自回归神经网络能够根据已经传输的数据，预测下一个数据点。换句话说，它会根据之前的数据推测出下一个数据的概率分布。

神经网络如何帮助压缩

在传统的压缩方法中，我们没有考虑数据之间的关系，每个数据点都是独立的，使用固定长度的比特表示。而在自回归神经网络中，模型已经学习到数据的结构和规律，因此能够通过预测下一个数据点来进行压缩。

举个例子，假设你和朋友都在使用相同的训练过的神经网络。你们两人都知道之前传输了哪些数据，模型会给出下一个数据点的概率分布。你可以利用这个概率分布来表示下一个数据点，从而实现数据的压缩。

算术编码

算术编码是一种高效的压缩方法，它通过将每个数据点的概率映射到一个区间，利用区间的缩小来表示数据。举个例子，假设我们已经预测下一个字符的概率分布如下：

字符“0”的概率是 0.2字符“1”的概率是 0.25字符“2”的概率是 0.22字符“3”的概率是 0.175

算术编码会根据这些概率分配区间，每个字符的区间大小与其出现的概率成正比。当我们通过不断细分区间，就能最终确定出字符的二进制编码。

上图摘自《揭秘大模型：从原理到实战》一书

比如，假设我们选择了字符“3”（其概率为0.175），通过几轮二分查找，最终可以将它表示为3个比特。例如，字符“3”可能被编码为(1, 0, 1)，即用3比特表示。

压缩率

使用自回归神经网络进行压缩时，数据的压缩率通常会大幅提高。与基准方法（每个符号用8比特表示）相比，通过预测下一个符号，我们可能只需要3比特就能表示同样的数据。

在模型训练过程中，模型通过最小化数据的负对数似然函数来学习数据分布。这实际上就是在进行无损压缩。训练过程中的目标是让模型尽可能准确地预测下一个数据点，从而实现最佳的压缩效果。

压缩的极限

压缩的效果是有极限的，随着数据集越来越大，压缩率也会趋向一个极限值。当模型对下一个数据点的预测越来越精确时，压缩率就越高，最终可以达到理论上的最大值。

例如，以Llama模型为例，它通过训练将5.6TB的文本数据压缩到约7.14%。具体来说，Llama模型的代码大约为1MB，训练损失为0.4TB，最终的压缩率为：

这意味着，Llama模型能够在保持数据完整性的同时，大大减少数据存储和传输的成本。

通过自回归神经网络和算术编码等技术，模型能够在保证信息完整性的前提下，极大地减少数据的存储和传输成本。随着模型的不断发展，数据压缩的效果也会越来越好。