国机工业互联网研究院申请一种适用于RAG场景下的pdf文档中表格解析方法专利,能更准确检索生成信息

金融界 2025-03-28 19:24:43

金融界2025年3月28日消息,国家知识产权局信息显示,国机工业互联网研究院(河南)有限公司申请一项名为“一种适用于RAG场景下的pdf文档中表格解析方法”的专利,公开号CN119691163A,申请日期为2024年12月。

专利摘要显示,本发明属于电数字数据处理技术领域,特别是涉及一种适用于RAG场景下的pdf文档中表格解析方法,包括解析pdf文档,逐页提取pdf文档中的表格并保存为Excel文件和定位信息,将Excel文件转换为Markdown格式表格,通过大语言模型对Markdown格式表格的内容进行总结并生成描述性文本,通过生成的描述性文本定位信息提取表格的上下文保存为关联性文本,将提取的上下文信息结合描述性文本生成总结文本,将描述性文本、关联性文本和总结文本向量化处理后生成向量化文件并保存至向量数据库将Markdown格式表格与生成的向量化文件关联存储,本发明仅通过大语言模型结合Markdown格式表格即可处理较为复杂的PDF解析,部署成本低同时,检索生成的信息更加准确,同时展示的内容更加直观。

天眼查资料显示,国机工业互联网研究院(河南)有限公司,成立于2019年,位于郑州市,是一家以从事互联网和相关服务为主的企业。企业注册资本1500万人民币,实缴资本1500万人民币。通过天眼查大数据分析,国机工业互联网研究院(河南)有限公司参与招投标项目99次,财产线索方面有商标信息6条,专利信息50条,此外企业还拥有行政许可3个。

本文源自:金融界

0 阅读:0