大模型内部也有功能分区，MIT团队揭示其“大脑”结构

AI 的“大脑”究竟长什么样？

近期，来自美国麻省理工学院的研究团队通过稀疏自编码器（SAE，Sparse Autoencoder）在大语言模型的激活空间中发现了大量可解释的向量点，这些向量点代表了模型所掌握的各种概念。

研究人员对这些概念空间（向量点）的结构进行了深入分析，从“原子”“大脑”“星系”三个不同的空间尺度揭示了其独特的几何特征。

这项研究的重要意义在于，它在试图搞清楚大模型是如何在内部组织知识的。研究成果以预印本的形式发表。

（来源：arXiv）

就像理解人类大脑结构帮助我们理解人类思维一样，分析模型内部的概念结构有助于我们理解人工智能是如何工作的。这些发现不仅有理论价值，也可能帮助我们设计出更好的语言模型。

在最微观的“原子”尺度上，研究发现概念空间中存在“晶体”结构。这些晶体几何结构代表的是语义关系（semantic relations），呈现出平行四边形或梯形的形态。

这种几何理解为词汇和语义赋予了拥有数学特征的向量空间。

更通俗的解释是，它们可以呈现出一种经典的概念（词）类比关系：女人-男人≈ 女王-国王。

从向量的角度来看，从“女人”到“男人”是性别的转换，就类似于从“女王”到“国王”。同理，从“女人”到“女王”，也类似于从“男人”到“国王”（皇室转换）。

图｜“女人-男人≈ 女王-国王”关系的向量图解（资料图）

研究团队发现，当消除词长等无关特征的干扰后，这种几何结构会变得更加清晰。

具体而言，研究团队首先计算了所有特征向量之间的成对差异，并对这些差异向量进行聚类。理论上，如果存在功能向量（如性别转换或身份提升），相关的差异向量应该形成聚类。

然而，研究者们发现了干扰特征的存在。例如，一些词汇的长度差异会导致几何结构的扭曲。

这一发现启发他们开发了更复杂的分析方法，通过线性判别分析（LDA，Linear Discriminant Analysis）将数据投影到排除干扰维度的低维空间中，可以显著提高这些晶体结构的质量。这表明，概念之间的语义关系确实存在系统性的几何对应。

在中观的“大脑”尺度上，研究发现概念空间具有显著的功能模块性。类似于生物大脑中的功能分区，相似功能的特征在空间上往往聚集在一起，形成“叶”状结构。

图｜识别出的 SAE 点云中的特征（这些特征往往一起触发）也被发现在几何上共位于功能“叶”中（来源：arXiv）

例如，数学和编程相关的特征会形成一个独立的“叶”，这与神经科学中通过功能磁共振成像观察到的大脑功能分区非常相似。

在研究方法上，团队使用了 The Pile 数据集进行实验。使用稀疏自编码器模型（Gemma-2-2b）处理了 10,000 个文档。

对于每 256 个标记的区块，他们记录了第 12 层中哪些稀疏自编码器（SAE）特征被激活。

他们还分析了每种文档类型中激活特征比例最高的脑叶，并创建直方图以可视化不同文档类型的激活模式。

研究者们采用多种统计方法验证了这种空间聚集现象的显著性，包括简单匹配系数、Jaccard 相似度、Dice 系数、重叠系数和 Phi 系数。

实验表明，Phi 系数能最准确地捕捉特征之间的功能关联，但所有方法均能在不同程度上展现出“脑叶”的形状。

他们发现，那些在文档中经常同时激活的特征，在几何空间中的距离也往往较近，这种空间局部性远超随机分布的预期。

图｜不同统计方法的对比（来源：arXiv）

为了量化这种功能模块的空间分布特征，研究团队开发了两种评估方法。

首先，他们进行了基于余弦相似度的空间聚类和基于特征共现的功能聚类，再把两者放在一起对比相互信息。由此可以得出功能结构与几何结构的“对应关系”。

其次，他们尝试用逻辑回归模型根据特征的几何位置预测其所属的功能模块。

实验结果表明，使 Phi 系数作为共现度量时，功能模块与几何结构的对应关系最为显著，其统计显著性远超随机基线。

简单来说，最终的结果是，研究人员发现相关的概念会聚集在一起形成功能区域，就像人类大脑中不同区域负责不同功能一样。

比如，跟数学和编程相关的概念会聚在一起形成一个区域，而处理日常对话的概念会聚在另一个区域。

这种功能分区的发现不仅证实了模型内部存在组织化的知识表示，还暗示了不同类型信息可能采用不同的编码方式。

在最宏观的“星系”尺度上，研究发现整个特征点云的分布并非各向同性，而是呈现出特殊的结构。

通过主成分分析发现，点云的协方差矩阵特征值呈现幂律衰减，且这种衰减在模型的中间层最为显著。

这意味着，概念空间在不同维度上的“宽度”并不均匀，而是遵循一定的统计规律。中间层较陡的幂律衰减可能暗示这些层在压缩信息、形成高级抽象表示方面发挥着重要作用。

图｜Gemma2-2b 第 12 层 SAE 特征的顶级 PCA 组件的 3D 点云可视化（来源：arXiv）

此外，研究还分析了点云的聚类熵，发现概念空间确实存在明显的聚类现象，特别是在模型的中间层。

这种聚类程度远高于各向同性高斯分布的预期，表明概念在特征空间中的分布具有复杂的内在结构。

研究者们使用 k-NN 方法估计了点云分布的熵，并与相同协方差矩阵的高斯分布进行对比，量化了不同层的聚类程度。

研究者最终发现，模型不同层的特征分布呈现出独特的模式。早期层和晚期层的熵值较高，这可能反映了这些层分别负责处理较为分散的低级特征和高度集中的任务相关特征。

而中间层较低的熵值则暗示这些层在概念抽象和信息整合方面发挥着重要作用。

这种层次化的组织结构可能是模型高效处理语言任务的关键机制之一。

总的来说，这项研究通过多尺度的几何分析，揭示了大语言模型内部概念表示的丰富结构。

这些新发现不仅加深了我们对模型工作机制的理解，提升了模型可解释性，也为未来改进模型架构和训练方法提供了有价值的启示。

参考资料：

https://arxiv.org/abs/2410.19750

运营/排版：何晨龙

世良情感网

大模型内部也有功能分区，MIT团队揭示其“大脑”结构

深科技利大千