2024人工智能最前沿:分享几个大模型(LLMs)的热门研究方向

智能科技扫地僧 2024-06-28 03:01:37
引言

在人工智能领域,大模型的研究正迅速发展,当前涵盖了很多个研究方向,每个方向都带有其独特的研究重点和挑战。下面给大家盘点几个比较热门的研究方向,主要包括检索增增强生成RAG、大模型Agent、Mamba、MoE、LoRA等,这些些研究方向旨在解决大模型在实际应用中的关键问题,提高性能和实用性。希望给正在找研究方向的小伙伴一些启发。相关论文获取,回复:LLM热门研究方向

检索增强生成RAG

检索增强生成(RAG)通过结合信息检索和文本生成来提高AI系统的性能。RAG的核心优势在于它能够利用外部知识库来辅助生成过程,从而提高生成内容的准确性和鲁棒性。结合大模型强大的生成性能,使得RAG在问答系统、文档生成、自动摘要、智能助手、信息检索和知识图谱填充等多种自然语言处理任务中都能发挥作用。研究重点包括「检索器与生成器的集成」、「跨模态应用和知识更新」。面临的挑战是如何提高「提高检索效率」、「增强生成质量」、「跨领域应用」等。

近年来,人工智能大模型在多种任务上展现了令人瞩目的能力,但在知识整合和长期记忆方面,大模型仍存在显著缺陷。为此,OSU&斯坦福作者提出了一个新思路:让大模型也拥有一个像人脑海马体一样的"记忆操作系统"。借鉴海马体在人脑记忆中的关键作用,设计了一个名为HippoRAG的新型检索增强模型。实验表明,装备了这一"类脑"记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。

AI2提出了一种自适应QA问答框架:Adaptive-RAG,该框架涵盖各种策略(简单复杂的都有),该框架可根据请求的复杂性动态的选择合适的策略,旨在提升检索增强大模型得处理不同复杂请求的响应准确性,提高了QA问答的效率!。

如果仅仅依赖大模型本身的参数知识来进行文本生成,那么大模型会不可避免的产生模型幻觉。为此,人们将检索增强生成(RAG)作为大模型文本生成的辅助方法,但是RAG方法的准确性依赖于检索文本的准确性,当检索出现问题时,那么生成文本的准确性将难以保证!为此,中科大提出纠正检索增强生成:CRAG,旨在提高文本生成的鲁棒性。

Infineon提出RAG-Fusion,它是一种结合了RAG和 Reciprocal Rank Fusion(RRF)的技术。具体来说,首先通过指令遵循模型生成多个请求,然后对每个生成的请求进行矢量搜索,以从预定义的集合中检索相关文档,接着应用倒数排名融合算法根据多个请求之间的相关性对文档重新排名;最后生成重新排序的文档组列表。

Amazon提出了一种新方法SYNTHESIZRR,用于改进大模型(LLMs)在分类任务中的微缩化过程。传统方法通过few-shot提示生成数据集,但存在重复和偏见问题。SYNTHESIZRR通过检索增强引入多样性,「使LLM根据不同内容生成更多样化的示例」。SYNTHESIZRR在提升词汇和语义多样性、模仿人类文本以及提高模型微缩化性能方面,均优于传统方法。

大模型Agent

今年年初业内大佬吴恩达表示,大模型Agent是为来大模型大发力点。随着大模型应用场景越来越复杂化,单纯依赖大模型的能力将面临巨大的挑战,为此用好大模型能力,构建大模型Agent将是大势所趋。微软研究人员也深入探讨了Agent AI的基础,强调了智能Agent在物理、虚拟现实、混合现实、感官交互等方面的能力,并指出Agent AI或是下一代人工智能的关键。其研究重点在于「多任务学习」、「常识推理和持续学习」,旨在提高Agent在广泛任务上的表现和适应性。

智谱提出新型自动化网页导航Agent:AUTOWEBGLM 本文提出了一个名为AUTOWEBGLM的新型自动化web导航Agent,它通过简化网页内容和使用AI技术来解决现有web Agent处理真实网页时的挑战。AUTOWEBGLM通过特别设计的算法来表示网页,保留重要信息,并利用混合人工智能方法进行训练。此外,该Agent通过强化学习和拒绝采样技术来提高对网页的理解能力和执行任务的效率。

微软提出自动软件开发框架:AutoDev,这是一个完全自动化的AI驱动软件开发框架,旨在自主规划和执行复杂的软件开发任务。AutoDev可以让用户定义复杂的软件工程目标,并将这些目标分配给AutoDev的自主Agent来实现。这些Agent可以在代码库上执行多种操作,包括文件编辑、检索、构建过程、执行、测试和Git操作。

Google提出了SceneCraft,它是一个创新的大语言模型Agent,能够将文本描述转换成可在Blender中执行的Python脚本,用于创建复杂的3D场景。它通过高级抽象、战略规划和库学习来解决空间规划和布局的复杂性。

生成模型在软件工程中的应用已经取得了显著成果,尤其是在代码生成和调试任务中。尽管如此,这些模型在自动生成代码文档方面的潜力还未被充分挖掘。为此,清华开发了REPOAGENT,这是一个基于大型语言模型的开源框架,专门用于自动生成、维护和更新代码文档。通过一系列的评估,包括定性和定量分析,我们证明了REPOAGENT在创建高质量的代码仓库文档方面的能力。

本文研究是关于怎么让那些大型的语言模型,比如ChatGPT和GPT-4,变得更厉害,特别是在处理那些复杂和需要多种技能的任务上。为此,清华开发了GITAGENT,它可以让模型自己从GitHub上找到合适的代码库,然后加到自己的工具箱里。GITAGENT工作的时候,会分四个步骤,如果遇到问题,它还会去GitHub上看看别人是怎么解决的,学习经验。

对于大语言模型的规划和推理能力,不同的人有不同的看法。「亚利桑那州立大学研究人员的核心观点是:大语言模型(LLMs)自身无法进行规划推理」,但是却能在解决规划问题上发挥积极的作用。为此,作者还提出了一个新的LLM-Modulo框架,这个框架把大型语言模型和一些外部的验证工具结合起来,使LLMs在规划任务中发挥了重要作用。

Mamba

Mamba是一种选择性结构状态空间模型(Selective Structured State Space Model),其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。该技术最早由CMU提出,Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transformers的高级建模能力,同时避免了与Transformer相关的二次计算复杂性。其研究方向集中在提高「长序列数据处理能力」、「多模态数据处理」和「计算效率」等。

近日,波兰研究团队给出的研究成果是 MoE-Mamba,即将 Mamba 和混合专家层组合起来的模型。MoE-Mamba 能同时提升SSM 和 MoE 的效率。而且该团队还发现,当专家的数量发生变化时,MoE-Mamba 的行为是可预测的。

中科大等研究人员将Mamba与视觉研究结合起来,提出了Vim架构,在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上,与 DeiT等成熟的视觉 Transformers 相比,Vim 实现了更高的性能,同时还显著提高了计算和内存效率。例如,在对分辨率为 1248×1248 的图像进行批量推理提取特征时,Vim 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存。

华为诺亚方舟实验室的研究者提出了 DenseMamba,用于增强 SSM 中各层间隐藏信息的流动。通过将浅层隐藏状态有选择地整合到深层中,DensessM 保留了对最终输出至关重要的精细信息。DenseSSM 在保持训练并行性和推理效率的同时,通过密集连接实现了性能提升。该方法可广泛应用于各种 SSM 类型,如 Mamba 和 RetNet。

浙大将Mamba与多模型大模型结合,提出了Cobra,一个具有线性计算复杂度的MLLM,它将Mamba语言模型整合到了视觉模态中。实验结果显示,Cobra在性能上与最先进的方法相当,速度更快,尤其在处理视觉错觉和空间关系判断方面表现突出。cobra的参数量只有LLaVA的43%,但性能相当。

AI21 Labs 推出并开源了一种名为Jamba的新方法,在多个基准上超越了 transformer。Mamba 的 SSM 架构可以很好地解决 transformer 的内存资源和上下文问题。然而,Mamba 方法很难提供与 transformer 模型相同的输出水平。Jamba 将基于结构化状态空间模型 (SSM)的 Mamba 模型与 transformer 架构相结合,旨在将 SSM 和 transformer 的最佳属性结合在一起。结果表明:Jamba 在长上下文上的吞吐量达到了 Mixtral 8x7B 的3倍。Jamba 比 Mixtral 8x78 等大小相当的基于Transformer 的模型更高效。

大模型高效微调(LoRA)

大模型在微调过程中,可以采取不同的策略,主要分为全量微调和参数高效微调两大类。全量微调涉及对预训练模型的所有参数进行调整,需要大量的计算资源,并有可能导致灾难性遗忘,即在提升特定任务性能的同时损失在其他领域的表现。

为了解决这些问题,参数高效微调(PEFT)技术通过仅更新模型中的一部分参数来减少训练时间和计算成本。PEFT包括多种方法,如Prefix Tuning(在输入前添加可学习的virtual tokens作为Prefix),Prompt Tuning(在输入层加入prompt tokens),P-Tuning(将Prompt转换为可学习的Embedding层,并用MLP+LSTM处理),Adapter Tuning(在模型层中插入小型神经网络模块),以及LoRA(在矩阵相乘模块中引入低秩矩阵来模拟full fine-tuning)。这些技术旨在提高训练效率,同时保持或提升模型性能。

在广泛使用的参数高效微调(PEFT)方法中,LORA 及其变体由于避免了额外的推理成本而获得了相当大的普及。LoRA显著降低了微调的成本,同时获得与全模型微调相近的效果。所以LoRA的一些改进方法也层出不穷,该方向也成了研究热点。该方向的研究重点主要在于「参数效率」、「保微调策略」、「上下文扩展」、「模型压缩」等。

英伟达提出了权重分解低阶适应(DORA),增强了 LoRA 的学习能力和训练稳定性,同时避免了任何额外的推理开销。实验表明DORA 在各种下游任务上的模型微调都要优于LORA。

华盛顿大学提出了QLORA,该算法在保持完整的16位微调任务性能的情况下,可以实现单卡48G GPU微调650亿参数的大模型,作者公布了他们训练的系列模型Guanaco,与之前公开发布的所有模型相比,在Vicuna基准测试中表现更好,只需要在单个GPU上微调24小时就能达到ChatGPT性能水平的99.3%。

MIT为了扩展Token上下文长度,提出了LongLORA微调算法,它能够在资源受限的情况下,极大的扩展预训练大模型(LLMS)的上下文长度,LongLORA可以让LLaMA2-7B的上下文从4K扩展至100K。

斯坦福提出了S-LORA,它是专为众多 LORA 适配程序的可扩展服务而设计的系统,它将所有适配程序存储在主内存中,并将当前运行査询所使用的适配程序取到 GPU 内存中。S-LORA 能够以较小的开销在单个 GPU 或多个 GPU 上为数千个 LORA 适配器提供服务(同时为 2000 个适配器提供服务),并将增加的 LORA 计算开销降至最低。相比之下,LLM-packed 需要维护多个权重副本,并且由于 GPU 内存限制,只能为少于5 个适配器提供服务。

MoE

MoE其实也不是一项新的技术了,MoE全称为Mixed Expert Models。该项技术最早是由剑桥的研究人员在1991年的一篇文章(“Adaptive Mixture of Local Experts”)中提出。但是随着近年来大模型参数规模的不断拓展,以及大模型多任务的应用,该技术也成为了当前研究的热点。

我们都知道随着模型参数规模的不断增大,模型性能也会不断的提升,并会出现涌现现象,这也是当前大模型爆火的主要原因。然而,如何在有限的计算资源预算下,用更少的训练步数训练一个更大的模型呢?那么MoE技术主要就是干这件事情的。

MoE具有训练资源需求低、训练速度快、推理成本低、扩展性好以及具备多任务学习能力。它的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,您可以显著扩大模型或数据集的规模。特别是在预训练阶段,与Dense 模型相比,MoE模型通常能够更快地达到相同的质量水平。当前其研究重点主要集中在「专家网络的协同」、「动态路由」、「专家激活率低」和「模型的可扩展性」等方向。下面是一些最近的研究进展供大家参考:

2022年,Google 提出的 Switch Transformers 一定程度缓解了模型复杂性高、下游任务微调不稳定等问题。Switch Transformers 简化了 MoE 路由算法,设计了直观的改进模型,降低了通信和计算成本。Switch Transformers 的训练方法减轻了不稳定性,并且首次展示了用较低精度(bfloat16)格式训练大型稀疏模型的可能性。

北大针对MoE路由机制进行了改进,提出了一种新颖的动态Expert选择框架,对于较难的任务,本文方法会选择更多的Expert来处理,对于简单的任务就用少些,这样可以更有效地利用计算资源。实验结果表明:本文动态路由方法在各种基准测试中都要优于传统的Tp-2路由方法平均提高了0.7%,同时激活的参数不到90%。

微软针对MoE专家激活率低等问题,提出了多头混合专家(MH-MOE)。MH-MOE 采用了多头机制,可将每个输入 token 分成多个子 token。然后将这些子 token 分配给组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式,该方法专家激活率更高且扩展性更好,并且具有更细粒度的理解能力。

ByteDance针对大模型多模态场景提出了CuMo,将MOE应用于多模态LLM,该方法在视觉编码器和多层感知器(MLP)连接器中整合了Top-K稀疏门控MOE块,有效提升了模型在多模态任务上的性能,同时保持了较低的推理成本。在不同模型尺寸的多模态任务基准测试中达到了SOTA。

0 阅读:0

智能科技扫地僧

简介:感谢大家的关注