大型语言模型(LLMs)取得了快速发展,为了增强对不同语言用户群体的整体可用性和可访问性,发展语言公平技术至关重要。但对多语言场景的调查仍然不足,为此,提供了一个多角度的调查,包括训练和推理方法、模型安全性、多领域与语言文化以及数据集的使用。
LLMs训练:多语言性导致的每个阶段中的失败案例

近年来代表性大型语言模型(LLMs)和多语言大型语言模型(mPLMs)的概览。由一棵树组成,展示了两种范式("预训练,微调"→"预训练,提示,预测")的转变,包括三种模型架构(仅编码器、仅解码器和编码器-解码器)以及多语言大型语言模型的四个新前沿。

一个多语言LLMs研究分类法

LLMs的多语言能力
根据训练范式,将现有的多语言LLMs分为两类:从头开始训练的基础模型和在基础模型上持续训练的模型。
从头开始训练(Training from Scratch)从头开始训练是指直接使用多种语言的数据来训练语言模型,以获得多语言能力。通过语言采样算法控制每种语言的重要性,以确保模型能够理解和生成多种语言。尽管这种方法可以训练出具有多语言能力的模型,但在处理低资源语言时仍面临挑战,因为训练数据的语言分布高度不平衡,不同语言的质量也参差不齐。持续训练(Continual Training)持续训练是指在现有模型的基础上,通过更新数据来提升模型的多语言能力,而不是从头开始训练。通过这种方式,可以在不需要大量计算资源的情况下,为模型注入额外的多语言能力。例如,通过在特定语言上进行微调,或者通过多阶段持续训练,结合知识继承,显著降低与从头开始训练相比的计算成本。近三年来具有一定多语言能力的代表性大型语言模型(可训练参数超过70亿)的概览,包括它们的发布时间、参数、隶属机构、基础模型、可用性以及支持的语言。

多语言推理策略
多语言环境中部署语言模型的关键推理策略,包括直接推理、预翻译推理和多语言链式推理(CoT)。
直接推理(Direct Inference): 随着LLMs的发展,训练语料库的多样化使得模型能够处理多种语言,从而赋予了模型固有的多语言能力。这意味着模型可以直接在其原始语言中处理输入,而无需将其翻译成枢纽语言(如英语或中文)。这种能力非常宝贵,因为它保留了原始文本中的语言和文化细微差别,避免了在翻译过程中可能发生的语义失真或信息丢失。预翻译推理(Pre-Translation Inference): 对于某些LLMs,直接推理可能并不适用,这取决于它们的多语言能力。现有的LLMs通常在资源丰富的语言上表现更好,因为训练数据中的比例不平衡。为了提高在资源匮乏的语言上的表现,预翻译推理通过将各种语言的输入翻译成枢纽资源丰富语言(例如英语或中文),然后再查询LLMs。多语言链式推理(Multilingual CoT - Chain of Thought): 链式推理是一种有效的方法,可以增强LLMs在复杂推理中的性能。在多语言场景中,CoT方法通过提示模型在原始查询语言中建立逐步推理过程,从而有助于保持语言和文化细微差别。多语言检索增强生成(Multilingual Retrieval Augmented Generation): 检索增强生成是一种将文本生成与外部知识检索相结合的方法,通过访问相关信息动态提高模型响应的质量和准确性。这种方法使模型能够在文本生成中利用最新或专业的知识,从而提高其实用性和可靠性。代码切换(Code-Switching): 代码切换是指在语言交流中根据上下文需要在两种或多种语言之间切换的现象。这对于双语或多语言社区来说很常见,尤其是在口语交流中。解决代码切换文本的任务是一个重要且具有挑战性的任务,因为LLMs在推理前没有指定语言ID。多语言大型语言模型的安全性
多语言场景下LLMs面临的安全问题,包括攻击方法和现有的防御机制研究:
攻击方法 (Attack Methods)红队攻击 (Red-team Attack): 这是一种网络安全练习,其中一组道德黑客模拟对组织的系统、网络或基础设施进行真实世界的网络攻击,目的是识别漏洞、弱点和潜在的安全漏洞。“越狱”攻击 (Jailbreak Attack): 这种攻击通常指的是未经授权访问或修改模型的基础代码或功能。它涉及绕过LLMs设计或使用策略所施加的限制。攻击类型: 根据现有研究,LLMs的越狱方法可以分为三类:贪婪坐标梯度 (Greedy Coordinate Gradient, GCG) 越狱基于提示的越狱 (Prompt-Based Jailbreak)多语言越狱 (Multilingual Jailbreak)贪心坐标梯度、基于提示的和多语言攻击方法在AdvBench上对LLMs进行越狱的概述。评估方法与EasyJailbreak框架一致,该框架使用GPT-4-turbo-1106作为评分模型,并使用来自GPTFUZZER的评估提示。

在列出的LLMs上进行越狱攻击时的防御方法概览。攻击成功率(ASR)指标的评估方法与JailbreakBench[325]一致。LLMs的响应使用LLaMAGuard-7B进行评估。

多语言大模型在多领域场景应用
多语言大型语言模型(LLMs)在多领域场景下的应用,特别是在医疗和法律领域的应用:
医疗领域 (Medical Domain)现有工作: 已有研究将LLMs集成到医疗领域,例如Med-PaLM2通过了美国医学执照考试。持续训练: 常见的做法是对基础模型进行持续训练,使用医疗领域的语料库来提高模型在特定领域的性能。多语言医疗LLMs: 为了解决多语言问题,研究者尝试引入多语言医疗语料库来增强基础模型的多语言能力。挑战:语言特定的医疗知识与当地文化、历史、政治和地区背景高度相关。跨语言联合训练可能促进医疗LLMs的性能提升。医疗数据在各种语言中的持续稀缺性阻碍了进一步的发展。法律领域 (Legal Domain)现有工作: 法律领域的LLMs主要集中于英语,但已有尝试将LLMs扩展到其他语言。多语言法律LLMs: 研究者构建了多语言法律领域语料库,并训练了基于XLM-R和Longformer的预训练语言模型。法律提示工程 (LPE): 用于增强LLMs的能力,以应对跨语言法律数据的稀缺性和计算资源的需求。挑战:法律系统和司法管辖区在不同地区之间差异显著,增加了复杂性。法律术语的翻译引入了错误,尤其是处理特定领域的术语。法律知识随时间不断修订,需要模型持续更新。多语言数据资源与测试基准
代表性多语言数据资源的概览及统计详情

支持四种以上语言的多语言基准测试概述。NLU和NLI分别代表自然语言理解和自然语言推理任务。
