港大最新研究成果：MiniRAG，「迷你版」RAG小模型端侧可用

MiniRAG让仅有1.5B参数的小型模型也能达到接近GPT-4mini的RAG任务性能，大幅降低了算力需求。

传统RAG系统的高资源需求和部署门槛一直是行业痛点，香港大学黄超教授团队最新推出的MiniRAG框架为此提供了创新解决方案。通过突破性的架构优化设计，MiniRAG让仅有1.5B参数的小型模型也能达到接近GPT-4mini的RAG任务性能，大幅降低了算力需求。这一突破不仅让端侧RAG系统部署成为可能，更为RAG技术的应用探索新途径。

项目链接: https://github.com/HKUDS/MiniRAG

论文链接: https://arxiv.org/abs/2501.06713

实验室主页: https://github.com/HKUDS

1为什么需要 MiniRAG？现有 RAG 系统的局限性

高资源需求与部署门槛

传统RAG系统通常依赖于大型语言模型（LLMs），这些模型虽然性能强大，但对计算资源和存储空间的需求极高，导致其难以在资源受限的端侧设备上部署。此外，大型模型的复杂性和高成本也限制了RAG技术在更广泛场景中的应用。

小型语言模型的性能瓶颈

现有的RAG框架在设计上主要针对大型语言模型，直接将其应用于小型语言模型（SLMs）时，性能往往大幅下降。特别是在查询理解、多步推理、语义匹配和信息合成等关键环节，小型模型的表现明显不足，难以满足实际应用需求。

数据隐私与端侧需求

随着数据隐私保护意识的增强，端侧设备上的数据处理需求日益增加。然而，传统RAG系统由于依赖云端大型模型，难以在端侧实现高效且隐私保护的知识检索与生成。MiniRAG通过轻量级架构设计，成功解决了这一问题，为端侧RAG系统的部署提供了可行方案。

2MiniRAG的核心设计

MiniRAG通过突破性的轻量级架构创新，成功构建了一个高效的检索增强生成系统。该系统无需依赖庞大的语言模型，不仅显著降低了部署门槛，更能有效保护在端侧RAG系统中用户的数据隐私。

MiniRAG框架MiniRAG提出了两大核心创新组件：语义感知异构图索引和轻量级图式知识检索。这些设计使得系统能够在保证检索质量的同时，大幅降低对模型能力的依赖，特别适合在资源受限的端侧设备上运行。

语义感知异构图索引

MiniRAG通过融合文本块和命名实体，构建层次化语义网络。这种双层结构不仅提高了检索结果的准确度，还巧妙避开了小型语言模型在文本概括方面的短板，最大限度地保持了原始信息的准确性。

轻量级知识检索

针对端侧设备的计算资源限制，MiniRAG采用图式知识检索机制，结合语义感知异构图和轻量级文本嵌入，实现了高质量的知识获取。该机制通过简化的解析流程和拓扑增强检索策略，显著降低了检索过程对模型性能的要求。

LiHua-World：模拟真实端侧场景的评测数据集

LiHua-World数据集，记录了LiHua一年的通讯数据为全面评估MiniRAG在实际应用中的性能，研究团队同步推出了首个专门面向端侧环境的评测基准——LiHua-World。这个精心设计的数据集通过模拟真实的个人设备通信数据，系统性地覆盖了端侧场景下的多样化检索需求和知识增强应用，为轻量级RAG系统的发展提供了重要的评估工具。

数据集特点

问题类型丰富：包含单跳查询、多跳推理和信息总结等多种任务类型。

场景多元：涉及社交、健身、娱乐和生活等领域，贴合端侧应用特点。

专业标注：配备标准答案和相关文档，确保评估的准确性和可靠性。

3实验评估与分析

实验结果

系统性能对比

现有RAG系统的局限性：实验结果表明，现有RAG系统在迁移至小型语言模型(SLMs)时存在严重的性能瓶颈。具体而言，LightRAG的整体性能显著下降(降幅达45.43%)，而GraphRAG在小模型场景下甚至无法维持基本的生成能力。这些问题充分暴露了传统RAG架构对大型语言模型的深度依赖。

MiniRAG的创新突破：相比之下，MiniRAG通过双节点异构图索引结构和拓扑增强检索机制，有效降低了对模型能力的依赖。实验数据显示，在迁移至小型语言模型时，MiniRAG的性能损失得到显著控制 - 最大降幅仅为21.26%，最小降幅更是低至0.79%，展现出优异的模型适应性。

不同方法的存储效率与准确率MiniRAG显著的存储优化: 实验评估显示，MiniRAG在存储效率优化方面取得了突破性进展。与采用gpt-4-mini的LightRAG基线系统相比，MiniRAG仅需25%的存储空间即可达到相当的性能水平。这种在大幅降低存储需求(节省75%)的同时还能保持高检索准确率的特性，不仅展现了MiniRAG在系统架构设计上的创新，更为资源受限场景下的RAG应用开辟了新的可能性。

组件效果分析

消融实验为全面评估 MiniRAG 各组件的性能贡献,研究团队设计了两组系统化的消融实验。第一组实验 (-$I$) 将 MiniRAG 的异构图索引替换为传统的基于描述的索引方法,该方法与 LightRAG 和 GraphRAG 类似,主要依赖模型的语义理解能力来生成实体与关系描述。第二组实验 (-$R_i$) 通过在图检索过程中选择性停用特定功能模块,以量化分析各模块对系统整体表现的影响。

实验结果表明：

小语言模型难以支撑传统RAG方法。消融实验结果明确显示，当使用传统的文本语义驱动索引技术(-$I$)替代MiniRAG的索引方法时，系统性能出现显著下降。这一发现有力验证了研究团队的初始假设：小型语言模型(SLMs)在复杂知识图谱生成和全面语义理解等方面存在固有局限。

推理路径的有效性。结构组件的关键性通过实验得到充分证实。无论是移除边信息(-$R_{edge}$)还是块节点(-$R_{chunk}$)，都会导致系统性能明显下降。这些组件展现出双重价值：既通过查询引导的推理路径发现优化了查询匹配效果，又在数据索引阶段有效弥补了SLMs的能力限制。

实际场景案例研究

案例研究MiniRAG通过一个复杂的餐厅识别案例，有力展示了其在实际应用中的卓越性能，特别是在处理多约束查询和克服小型语言模型局限性方面的优势。

挑战：复杂查询解析的困境

研究团队选取了一个具有挑战性的测试案例，查询内容为：Wolfgang和Li Hua为庆祝Wolfgang升职而共进晚餐的那家意大利餐厅叫什么名字？这一查询涉及多重约束条件，要求系统能从在线聊天数据中准确识别特定意大利餐厅及其相关上下文。在这个测试中，两种RAG方法都使用phi-3.5-mini-instruct小语言模型。受限于小型语言模型的固有局限性，特别是在提取high-level信息和处理图索引噪声方面的不足，导致LightRAG的检索效果不够理想。

MiniRAG的解决方案

创新的知识发现机制，MiniRAG通过其独特的查询引导推理路径发现机制成功应对了上述挑战。系统利用异构图索引结构，首先预测答案类型（如"社交互动"或"地点"），然后通过策略性分解查询要素（专注于"意大利场所"和"餐厅"语境），结合目标实体匹配，实现了精确且具有上下文关联的知识检索。这种结构化推理方法使MiniRAG即便使用小型语言模型也能够精确导航知识空间，最终成功定位目标餐厅——Venedia Grancaffe。

4未来研究方向

增强小型语言模型的能力：通过模型压缩和知识蒸馏等技术，进一步提升小型语言模型在RAG任务中的表现。

扩展应用场景：探索MiniRAG在更多端侧设备上的应用，如智能家居、车载系统等。

优化隐私保护机制：进一步研究如何在保证性能的同时，增强端侧RAG系统的数据隐私保护能力。

5总结

https://github.com/HKUDS/MiniRAG。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。