AlKhamissi, B., Tuckute, G., Bosselut, A., & Schrimpf, M. (2024). The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units. arXiv preprint arXiv:2411.02280.
近年来,AI语言模型展现出了接近人类的语言处理能力。
在神经科学中,“语言网络”指的是大脑中专门用于处理语言信息的区域及其连接模式。这些网络通过复杂的神经活动支持人类的语言理解和产出。
那么,在这些模型庞大的参数空间中,是否也分化出了类似人类语言网络的功能模块?
定位语言模型中的语言网络
研究者从18种热门的语言模型(如GPT-2、LLaMA等)中,试图找到与语言任务密切相关的语言特异单元(language-selective units)。
研究者使用了类似神经科学的方法 (Fedorenko et al., 2010):向模型输入两组匹配长度的刺激,一组是完整的句子(如下图Sentence:“THE DOG CHASED THE CAT ALL DAY LONG”),另一组是非词句(如下图 Non-Words: “LUT REE UMLY LOND E WAM GOVING HOM”)。
具体来说,研究者对每个语言模型输入480个句子作为实验刺激。其中包括240个由12个单词组成的正常句子(即下图中的Sentences)和240个由12个非词(即下图中的Non-Words)组成的句子作为刺激。
然后,选取在完整句子输入下激活强度显著高于非词句输入的语言特异单元,定位语言网络的组成(见下图)。通过这种方法筛选出的单元,其激活模式能够明显区分正常句与非词句。
接着,他们收集了每个Transformer block对刺激的激活。Transformer block 是深度学习模型中的基本模块,由一个多头注意力机制和前馈神经网络组成。通过堆叠transformer block,语言模型组成了多层神经网络(堆叠次数决定层数)。例如,在LLAMA-3-8B 模型(Dubey et al., 2024)中,由32 个Transformer blocks 和隐藏维度为 4096 的网络组成。在这样的模型中,这种结构产生了32 ×4096 = 131,072 个单元。
随后,研究人员计算正常句子与非词句子在每个单元上的激活幅度差异,并将激活幅度差异最大的前1%单元定义为模型的语言网络。他们通过Welch's t检验中的正t值来衡量这种差异(即t检验中计算得到的t统计量,选取正的 t 值能保证只保留那些对正常句子激活高于非词句子的单元)。这一方法避免了将语言特异性局限于某一特定层,而是从整个网络中筛选出具有显著语言特异性的单元。
语言网络的分布
结果显示,大语言模型的语言网络分布具有层次性,主要集中在神经网络中的后几层,但不同模型中存在差异。下图展示了不同模型的语言特异单元在每层所有单元的占比。
纵轴表示模型的层数,颜色的深浅表示语言特异单元占比的大小,颜色越亮表示语言特异单元的占比越大。
除了语言特异单元的占比,这项研究还汇报了语言特异的显著程度——语言选择指数(Language Selectivity Index)。具体来说,研究者保留了在对比中统计显著的语言特异单元的p值,然后将这些单元的1-p值进行归一化后求和。类似地,显著性较高的语言特异单元也集中在神经网络中的后几层,这一现象也在不同模型间存在差异。
横轴表示层深的相对位置(例如,32层神经网络中的第8层,表示为0.25),纵轴表示语言选择性指数。
消融实验:验证语言网络的因果作用
为了验证语言模型中语言网络与模型在语言能力的表现是否存在因果关系,研究者进行了消融实验。
具体来说,研究者移除了语言特异单元组成的语言网络(见下图),并对比对照组(随机移除一些单元),然后观察模型在语言任务中的性能变化。
在消融10个语言模型的前0.125%、0.25%、0.5%和1%的语言特异单元后,这些模型在三种衡量语言能力的基准测试的平均表现出现了显著的下降(如下图所示),导致语言任务产生严重缺陷。
模型在基准测试中的表现。其中SyntaxGym提供30个子任务,侧重评估句法知识;BLiMP包含67个子任务,用于测试语法、形态和语义对比;GLUE涵盖8个子任务,评估模型的广泛语言理解能力。
作为对照组,研究者随机消融了同等数量的非语言特异性单元,然后测试了模型的性能变化(例如,如果前0.125%的单元被定义为语言特异性单元,则从剩余的99.875%中随机消融其他单元)。结果发现,随着消融比例的增加,模型的性能也发生了一定程度的下降。这说明,随机消融的单元也可能与语言能力有关。
进一步的分析发现,模型语言能力特异单元对不同任务的影响并不相同(见下图)。例如,在GLUE多任务语言理解测试集中,语言可接受性(COLA)和情感分析(SST2)的性能下降远比推理任务(QNLI和WNLI)严重。这种差异可能是因为推理任务依赖于其他非特定语言单元。
语言模型与大脑语言网络反应的相似性
为了验证这个语言网络对新刺激的泛化程度,研究者使用了之前用于人类被试的新实验刺激,再次进行了实验,同时以与神经科学的结果进行了对比。新的实验刺激,包括以下四种条件(见下图)。
使用的四种实验条件,其中“+/-”符号分别表示条件是否包含词汇或句法信息。1. 句子(S),即包含词汇和句法信息的结构良好的句子。2. 无连接单词(W),即打乱顺序的句子,包含词汇但不包含句法信息。3. 无意义语句(J),即其中动词或名词被可发音的非真实单词替代,因此仅包含句法而不含有词汇信息。4. 无连接非词(N),即打乱顺序的无意义语句,不含任何词汇或句法信息(在之前的语言网络定位中,研究者使用了一组不同的真实句子和非词句)。
之前的研究表明,人类的大脑语言网络对语言结构高度敏感:对完整句子条件的激活数值高于所有其他条件 (Fedorenko et al., 2010)。除了以上四种条件,研究者还收集语言模型对另外一组非语言刺激(例如,算术方程和代码)的反应。
数据的结果显示, 语言模型的语言单元表现出类似于大脑语言网络的响应特征:对自然语言具有更高的响应,而对数学方程和代码的响应较弱,与人类大脑一致(见下图)。
(b) 人类语言网络对四种条件的反应,大脑活动对S的响应最强,其次是W和J,对N最弱。(c)语言特异单元对四种条件的反应在10个模型和条件样本中的平均值。(d)来自随机单元的控制响应在条件样本和10个模型中的平均值。
进一步,研究人员通过计算Brain score来评估语言模型的语言单元与大脑语言网络的对齐程度。他们采用岭回归模型,通过语言特异单元在相同刺激下的激活来预测人脑激活,从而训练出该回归模型。
Brain score指的是回归模型预测的大脑激活与实际大脑激活之间的皮尔逊相关性(此训练过程在10折交叉验证中重复进行,最终结果取平均皮尔逊相关性)。
在两个不同神经影像数据集(Pereira2018 和 Tuckute2024b)中的结果表明,语言模型中的语言特异单元与人类语言网络的大脑活动之间存在显著的对齐。具体来说,当选择一小部分单元来预测大脑活动时,语言特异单元显示出比随机单元更高的相关性。
灰色表示相较于随机选择的单元进行训练的结果。误差条表示跨模型计算出的95%置信区间。
语言模型中的其他网络
除了语言网络之外,我们是否还能在语言模型中找到人脑中存在的其他功能网络?
多需求网络(Multiple Demand, MD)和心智理论网络(Theory of Mind, ToM)是人脑中另外两个被验证的神经网络。
为了在语言模型中定位MD网络,神经科学家通常通过算术任务,将高认知需求的困难问题(超过100的加减计算)与简单问题(100以内的计算)所引发的大脑激活进行比较(见下图)。而本研究中,通过平均题目中所有token的激活值,研究者计算出了单个刺激的单元激活。
ToM网络的测量,主要通过对比参与者在处理“错误信念故事”和“错误照片故事”时的脑部活动实现。错误信念故事要求参与者推测他人的错误信念,涉及心理推理;而错误照片故事则描述过时或误导的非心理信息,测试参与者处理静态物理状态的能力,不涉及心理推理。通过控制故事的语言和呈现风格一致性,研究者能够隔离与心理理论相关的特定脑区活动,精确测量心智理论网络的功能。相似地,在计算语言模型中的单元激活时,也会计算刺激中所有token的平均激活,并比较两组刺激。
分别去除MD和ToM特异性单元的前1%以及相等数量的随机单元后,研究人员在不同的基准测试集上观测了模型的表现。
结果如下图所示, MATH多项选择基准(第一行)和TOMi多项选择基准的表现(第二行)。具体来说,MD网络在LLAMA2-13B-CHAT、GEMMA-1.1-7B-INSTRUCT和PHI-3.5-MINI-INSTRUCT等模型中很明显,但在其他模型中则不太明显。
对于ToM,如MISTRAL-7B-INSTRUCT,可以定位特异单元,但对于其他模型,如PHI-3.5-MINI-INSTRUCT,则不能。
测量MD的表现时,研究者使用了测试集MATH,其中包含从“计数与概率”到“几何”和“代数”等多个主题的数学问题。对于ToM的表现,则使用ToMI QA数据集,其中包含620个题目。(a,d)MATH/TOMI在所有10个模型中的平均性能变化。(b,e)与随机单元消融相比,消融MD/ToM特异单元导致解决困难算数和错误信念问题的性能下降。(c,f)显示消融MD/ToM特异单元和随机单元之间没有差异的模型。
这样的结果说明,不同网络的分化在模型间也存在差异。
模型可解释性之后
越来越多的研究表明,大语言模型中也可能存在类似人类语言网络的“特异单元”。这些单元在句子刺激下显著激活,并且消融实验显示它们对于语言任务至关重要。同时,它们与人脑对应区域的神经活动存在高度对齐,甚至还能区分多需求网络和心智理论网络等功能模块。
不过,仍有许多疑问尚未解答:
这些网络是如何在训练中自发形成的?
又能否进一步扩展到更高层次的语义推理和知识整合?
未来,随着多模态融合与更大规模模型的出现,我们还能在语言模型中找到哪些与人类神经认知系统呼应的新式网络?
对此,你又怎么看?