本地数据融入模型:Lag[i]+DeepSeek,构建自己的私有知识智能

联动北方科技 2025-02-11 15:54:07

DeepSeek这款由中国初创公司“深度求索”(DeepSeek)开发的AI模型,仅用557万美元的训练成本,就实现了与OpenAI价值数十亿美元的顶级模型相匹敌的性能。更惊人的是,它甚至展现出类似人类的“顿悟时刻”——在解题过程中主动暂停、反思并探索新路径。

这场技术地震直接引发美股科技板块暴跌:英伟达股价单日暴跌17%,博通、AMD等芯片巨头也未能幸免,投资者恐慌情绪蔓延。

但是,你是否想过,如果DeepSeek能够结合您本地私有知识数据,会碰撞出怎样的火花呢?今天Lag[i] (联基)也能够将您的私有知识数据与DeepSeek的强大生成能力相结合,打造出独一无二的AI应用,为您的业务发展提供强大的数据支撑和智能决策。

在上一期我们已经本地部署了DeepSeek,这一期主要聊聊,Deepseek模型怎么与本地私有知识数据项结合,训练出属于自己的大模型。

Lag[i] (联基)的安装和启动

第一步在git上克隆Lag[i] (联基)

第二步,安装并启动向量数据库,Lag[i] (联基) 支持多种向量数据库,例如 ChromaDB。

配置文件的修改与模型选择

第三步,修改配置文件

修改lagi.yml配置文件,选择您喜欢的模型,例如deepseek,将其中的模型的your-api-key等信息替换为您自己的密钥,并根据需求将启用的模型的enable字段设置为true(也可以参考上一期文章,接入本地部署的deepseek大模型)。

(lagi.yml相关配置可以参考[配置文档](config_zh.md))

开启deepseek模型配置项

向量数据库和增强检索配置

将向量数据库的访问地址填入lagi.yml中

如果您想rag检索效果变的更好,还可以同时配置ES进行增强检索(选配)。

打开rag

如果您的训练语料中,表格数字类型的数据较多也,还可以开启texttosql开启智能问数模式(选配)只需填写以下配置项。

此时就可以启动Lag[i] (联基)了。

您可以根据您的需求直接在页面中上传文件,进行问答,也可以通过接口上传文件进行问答。

 

私有数据训练与模型学习当然您也可以通过接口直接上传您的私训文件。

如果您的私训数据是问答对json类型,也可以直接通过接口来上传。

另外Lag[i] (联基)还提供了原文的位置,包括下载链接,页码,内容定位,

API访问与流式调用方式您也可以直接通过API进行访问

我们提供了流式与非流式两种调用方式。

Lag[i] (联基)的文件处理与智文件处理方式

针对不同类型的文件,Lag[i] (联基)将采取差异化处理策略,自动高效地将文件内容转换为大模型训练的理想格式,以提高模型的学习效率和性能,帮助用户训练出属于自己的专属大模型。具体分类处理方式如下:

问答类文件处理:

对于问答文件,Lag[i] (联基)将运用智能算法分析内容,精确提炼关键词,并有效分离问题与答案,以提高模型的学习效率和性能。

章节类文件处理:

针对具有章节结构的文件,Lag[i] (联基)会优先剔除目录等非内容性元素,再运用智能算法分析内容,从而进行精准的段落划分,确保段落完整,便于模型学习与处理。

表格类文件处理:

在处理普通表格文件时,Lag[i] (联基)会识别表头的位置与布局,将内容转换为Markdown格式,以优化模型的学习与处理。

表格纯数字类文件处理:

表格数据处理与Text2SQL的使对于纯数字表格文件,Lag[i] (联基)将根据表格中数字类型数据含量,结合Text2Sql技术,提供最佳表格切片方案,将表格内容自动转为结构化类型数据,导入MySQL数据库中,结合Sql2Text技术实现智能问数。若未配置MySQL,则按“表格类文件处理”流程处理。

图文类文件处理:

对于文档中包含图文信息的文件,Lag[i] (联基)将结合图文混排技术,精准提取文档中的图片和内容,从而辅助大模型对该文件的学习与处理。若未配置图文混排,将按普通文件处理流程操作。

标题类文件处理:

文件中的标题将被独立提取,作为关键信息单元进行专项处理。精准识别标题,确保其作为内容的核心元素得以有效提取,为大模型提供高质量的学习数据。

演示文稿类文件处理:

对于演示文稿类文件,Lag[i] (联基)将读取每页文稿内容,将该页文本内容与图片进行关联,以便提升大模型对文稿的学习与处理能力。

图片类文件处理:

在处理图片文件时,Lag[i] (联基)将结合OCR技术进行图文识别,并将识别信息与图片关联,作为关键信息单元。若OCR未配置,将默认使用图片名称与图片关联处理。

DeepSeek与Lag[i] (联基)的应用场景

通过Lag[i] (联基),您可以将本地私有知识数据与DeepSeek的强大生成能力相结合,打造出独一无二的AI应用。无论是智能客服、自动写作、还是个性化推荐,Lag[i] (联基)都能助您一臂之力,让AI更好地服务于您的业务发展。

未来展望与AI在业务中的应用想象一下,您的智能客服能够根据客户的历史订单数据,自动生成个性化的问候语和产品推荐;您的自动写作系统能够根据公司的营销数据和竞争对手分析,自动生成有针对性的营销文案;您的个性化推荐系统能够根据用户的历史行为数据,自动推荐用户可能感兴趣的产品和服务。

这些场景,都将成为现实!Lag[i] (联基)与DeepSeek的结合,将为您的业务发展带来无限可能。快来体验Lag[i] (联基)与DeepSeek的完美结合吧,让我们一起开启AI与知识融合的新篇章,迈向更美好的未来!

👉Lag[i]中间件项目已开源👈

地址:‍https://github.com/landingbj/lagi‍

机会总是留给有准备的人。

—— 路易·巴斯德
0 阅读:6
联动北方科技

联动北方科技

联动北方科技有限公司