
尽管大多数生成式 AI 仍然围绕检索增强生成(RAG, Retrieval-Augmented Generation)展开,但它们往往无法满足用户的期望。即使研究人员不断改进 RAG,甚至引入智能体(Agents),许多解决方案仍然面临以下挑战:
❌ 无法提供完整的检索结果,导致关键信息缺失。❌ 难以获取文档中罕见但重要的信息,需要多次查询。❌ 难以整合多个文档中的核心主题,影响整体理解能力。❌ 仍然依赖将尽可能多的“相关”信息塞入 LLM 的上下文窗口,影响推理能力和响应一致性。
解决方案:智能知识蒸馏 + 金字塔搜索!与其不断优化文本切分(chunking)策略、检索算法或推理方法,我们提出了一种智能体驱动的文档摄取方法,称为 Agentic Knowledge Distillation(智能知识蒸馏)+ Pyramid Search(金字塔搜索)。
我们的核心策略: 在文档摄取阶段,充分利用 LLM 的能力,提炼并存储最有价值的信息。 在检索时,让 LLM 专注于回答问题,而不是解析零散的文档片段。
适用场景:高价值问题!传统 RAG 方案 适用于可直接从文档中找到明确答案的问题,例如:✔ “苹果公司的年度股东大会是什么时候?”(RAG 可直接查找文档获取答案)
但在需要跨文档推理和整合信息的问题上,RAG 方案往往失败,例如:❌ “道琼斯工业平均指数(DOW)公司中,哪一家 AI 战略最具前景?”(无法跨文档综合分析)
我们的智能知识蒸馏 + 金字塔搜索策略,在这些复杂查询上的表现远超传统 RAG 方案,同时克服了知识图谱在 RAG 系统中的局限性。
实验数据集我们下载了道琼斯工业平均指数(DOW)30 家公司的年度和季度财报,这些文档来自美国证券交易委员会(SEC)EDGAR 数据库。✔ 确保数据超出 LLM 的知识截止点,防止 LLM 依赖预训练知识回答问题。✔ 真实商业环境模拟,确保研究结果可应用于实际业务场景。
本文内容: ✅ 知识蒸馏的工作机制✅ 该方法的核心优势✅ 实际应用示例✅ 如何评估这些系统(尤其是没有唯一正确答案的查询)
如何构建金字塔:智能知识蒸馏的工作原理概述我们的知识蒸馏过程将原始文档转换为一个多层次的知识金字塔,类似于计算机视觉中的金字塔结构,让模型能够在不同层次分析信息。 在检索时,用户可以访问金字塔的任意或所有层级,以获取最相关的信息。
如何蒸馏文档并构建金字塔? 第 1 步:将文档转换为 Markdown为什么选择 Markdown?✔ 相比 JSON,Markdown 处理效率更高,更适合 LLM 解析。✔ 更节省 Token,降低计算成本。 转换方式:我们使用 Azure Document Intelligence 处理 331 份文档,16,601 页。 开源替代方案:例如 MarkItDown 也可以完成类似的转换任务。
第 2 步:从每一页提取原子级见解(Atomic Insights)处理方式: ✔ 采用双页滑动窗口,确保每页被分析两次,以减少错误。✔ 让 LLM 生成编号列表,每次读取新页面时可以覆盖之前的错误见解。✔ 采用 主语-动词-宾语(SVO)格式 生成清晰简洁的句子,提高理解度。✔ 简化表格数据:LLM 将表格信息转换为清晰的文本描述,便于后续检索。
数据统计: ✔ 总计提取 216,931 条见解(≈ 每页 13 条,每份文档 655 条)。
第 3 步:从见解中提炼概念(Concepts)为什么要提炼概念?✔ 减少冗余信息,保留重要内容。✔ 构建更高层次的知识结构,帮助 LLM 识别跨文档的核心主题。
数据统计: ✔ 总计提炼 14,824 个概念(≈ 每页 1 个,每份文档 45 个)。
第 4 步:从概念中生成摘要(Abstracts)摘要的作用:✔ 比人工摘要更精炼、更信息密集。✔ 比原始文档摘要更全面,涵盖所有关键信息。
结果: ✔ 每份文档生成 1 个摘要,共 331 个摘要。
第 5 步:存储跨文档的回忆/记忆(Recollections & Memories)为什么存储记忆?✔ 记录用户共享的任务信息,避免重复分析。✔ 记录LLM 研究过程中积累的知识,改善长期推理能力。✔ 例如:存储 "当前道琼斯 30 家公司的名单",因为该名单会随时间变化。
示例: ✔ 追踪各家公司AI 战略,记录它们的主要投资方向。✔ 维护一个审计追踪,标记这些记忆来源于哪些文档。
如何使用金字塔?RAG & Agents 的结合在推理阶段,传统 RAG 和智能体(Agentic)方法都能受益于金字塔结构的预处理数据。 两种检索方式: ✔ 传统 RAG:仅检索最相关的信息片段。✔ Agentic 方法:智能体 规划 -> 检索 -> 评估 -> 生成最终响应。
示例:智能搜索代理如何遍历金字塔?✔ 使用 PydanticAI 创建搜索代理,解析用户请求,生成搜索关键词,探索相关概念,并跟踪相关信息。✔ 最终将搜索结果重新排序,提交给 LLM 生成最终回复。
示例:不同层级的数据访问方式: ✔ 仅访问概念层(适用于主题分析)。✔ 访问所有层次(适用于复杂任务)。
实验结果:金字塔方法在真实任务中的表现 任务 1:精准信息查找问题:“IBM 最新财报的总收入是多少?” ✅ 答案:“IBM 2024 年 Q3 总收入为 $14.968B [ibm-10q-q3-2024.pdf, 第 4 页]”。 仅使用 9,994 个 Token!
任务 2:复杂分析任务问题:“分析微软和英伟达的 AI 投资及市场定位。” ✅ 答案:完整的市场分析报告。 仅使用 26,802 个 Token!
结论:金字塔方法不仅降低 Token 消耗,还能提供更高质量的分析!
金字塔策略的优势:为什么要采用它?通过实验,我们发现金字塔方法在应对高价值问题时,能显著提升 LLM 的响应质量和整体性能。以下是我们观察到的主要优势:
1️⃣ 降低 LLM 的认知负担传统 RAG 在检索时,模型必须解析格式混乱、分散的文档片段,导致计算资源被浪费。 金字塔方法 让智能体(Agent)直接检索预处理过的、清晰的摘要和概念,大幅提升检索效率!
2️⃣ 处理表格数据的能力显著增强许多关键信息隐藏在表格中,例如财务报表、投资计划、市场趋势等。 金字塔方法 让 LLM 提前解析表格,转换为清晰的自然语言描述,确保信息可被高效检索。
3️⃣ 提高对不同类型查询的响应质量精确查找(如“某公司 2024 Q3 收入是多少?”) 综合分析(如“微软和英伟达的 AI 投资策略有何不同?”) 长期推理(如“过去 3 年间,哪些公司 AI 研发投入增加最多?”)
4️⃣ 关键上下文信息得以保留传统 RAG 方案往往会遗漏部分罕见但重要的信息,例如:✔ 财报中的货币单位(百万美元?十亿美元?)✔ 数据的时间范围(是 2023 还是 2024?) 金字塔方法确保这些信息被存储和调用,避免信息丢失。
5️⃣ Token 使用优化,减少成本,提高检索速度由于信息在摄取阶段已经被浓缩,LLM 生成答案时所需的 Token 远少于传统 RAG。 这不仅降低了计算资源消耗,还能加快响应速度,尤其适用于大规模数据集。
6️⃣ 具备更好的可扩展性(Scalability)传统 RAG 方案在数据量增长时,检索效率会大幅下降。 金字塔方法 仅存储关键信息,即使数据规模扩大,检索仍然高效。
7️⃣ 让智能体(Agent)更高效地探索概念金字塔方法允许智能体像遍历知识图谱一样查找信息,但不需要构建复杂的关系网络。 由于所有信息都以自然语言存储,LLM 可以直接搜索,无需额外的图谱解析步骤。
8️⃣ 让 LLM 对数据集本身有更深的理解由于 LLM 可以访问更高层次的摘要和回忆层(Recollections),它可以自动生成数据集的背景信息。 例如,用户可以直接问:✔ “这个数据集包含哪些公司?”✔ “我可以查询哪些类型的问题?”
超越金字塔方法:如何评估 RAG & Agent 系统?尽管金字塔方法的效果显著,但如何为整个系统建立科学的评估标准仍然是一个挑战。
挑战 1️⃣:传统 RAG 评估框架无法处理复杂问题✔ 目前的大多数 RAG 评估数据集仅适用于单一文档检索。✔ 但现实世界的问题往往涉及多个文档的主题分析,而现有评估框架无法衡量这种能力。
挑战 2️⃣:如何衡量「最佳」答案?✔ 许多商业场景下,问题的答案不是唯一的,例如:❌ “哪家公司的 AI 战略最强?”✔ 不同专家可能有不同看法,因此无法用传统的「正确 vs 错误」标准衡量。
挑战 3️⃣:动态数据集导致答案不断变化✔ 真实世界的企业数据会不断更新,例如:✔ 公司财报不断发布,市场趋势持续变化。✔ 如何评估 AI 系统给出的答案是否仍然正确?
未来展望:金字塔方法的潜在应用场景虽然本研究主要针对金融数据和企业财报,但金字塔方法的应用潜力远超此领域。
1️⃣ 组织数据的智能管理✔ 上传所有销售团队的 PPT 资料,自动分析各产品的市场定位是否一致。✔ 对比不同业务部门的数据,找出不同团队在相同话题上的认知差异。
2️⃣ 作为企业的知识对齐工具✔ 检测公司内部的沟通不一致性(例如,同一产品在营销和技术文档中的描述是否一致)。✔ 优化团队知识共享,让不同部门对核心业务有更一致的理解。
3️⃣ 用于法律和法规合规分析✔ 自动解析法律条款,提取关键信息,帮助律师快速查找相关法规。✔ 跨法规文档比对,发现不同法律之间的潜在冲突或一致性。
4️⃣ 科技和学术研究✔ 分析 AI 研究论文,归纳不同方法的优缺点。✔ 追踪特定领域的最新研究趋势,帮助研究人员快速掌握前沿技术。
结论:金字塔方法为何重要?✅ 1️⃣ 让 LLM 在文档摄取和检索阶段都能发挥最大潜力✅ 2️⃣ 以更少的 Token 存储更密集的信息,减少推理时的噪音✅ 3️⃣ 速度快,Token 效率高,可在数秒内完成复杂检索✅ 4️⃣ 让 LLM 更擅长提炼关键信息,增强对财务和表格数据的理解✅ 5️⃣ 允许 LLM 以更自然的方式遍历知识,而不用依赖复杂的知识图谱✅ 6️⃣ 适用于大规模数据集,支持企业级应用场景
未来,随着 LLM 规模的不断增长,如何高效摄取、存储、检索和利用知识将变得越来越重要。
我们的金字塔方法提供了一种全新的 RAG 设计思路,能显著提升 LLM 在现实业务中的应用价值。
如果你正在开发 RAG 或智能体系统,不妨尝试金字塔方法,看看它如何改变你的数据检索体验!
研究团队:Tula Masterman, Jim Brown, Mason Sawtell, Sandi Besen 数据来源:道琼斯 30 家公司的年度 & 季度财报(来自 SEC EDGAR 数据库) 研究工具:Azure Document Intelligence, PostgreSQL, PydanticAI
