卷语料、理科生、应用工具化,星环科技的三个基本判断

因为科技是阴天 2024-06-09 08:22:19

星环科技有几个基本判断:

判断一:大模型卷参数,不如卷语料。卷参数已经接近天花板,卷语料质量,而不是语料数量才能以最小的代价,提升大模型能力,而且帮助企业将内部数据知识化,更能进一步提升语料养分。判断二:仅依靠语料也不能将大模型训练成“理科生”,从“文科生”到“理科生”涉及从预训练到微调,到强化学习,到持续模型评估的一系列的能力加持,也涉及检索增强(RAG)等关键技术。

判断三,应用工具化才能增强大模型的应用体验,代理Agent可将ERP、HR系统、CRM等应用变成工具,帮助企业生成报价单,进行合同审核、撰写标书。每个部门、每位员工都应该在几分钟可以创建自己的Agent。

上述三个判断,正影响着这家公司的业务思路。

从数据基础设施到AI基础设施

“如果大模型是‘新一代的超级计算机’。”FDTC2024期间,星环科技创始人、CEO孙元浩展示了他眼中的大模型落地框架,此框架分为三部分:“中间部分的代理Agent相当于CPU,左边部分的知识库相当于磁盘,右边部分的应用对应的是各类工具插件。”

支持这台“超级计算机”的则是AI基础设施。与此对应,星环科技的定位将从数据基础设施,进一步延伸到AI基础设施,并通过全新推出的Transwarp Knowledge Hub知识平台(以下简称TKH),打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业构建AI基础设施,加速大模型行业落地。

从数据到知识

挑战也由此而来。

“模型结构已经不是秘密,训练方法也不是秘密,现在企业缺的是语料。”话锋一转,孙元浩接着说:“其实,用于大模型训练的语料远没有耗尽,中国的企业也并不缺语料,只是数据语料散落在企业的各个角落。将数据语料汇集整理,用于模型训练或微调,是目前最大的挑战。”孙元浩强调说:“不是之一,这是最大的挑战。”

这也是星环科技AI基础设施中,出现的第一个技术板块。FDTC2024期间,星环科技正式发布一站式多场景语料平台Transwarp Corpous Sudio(TCS)。如果嫌TCS读起来太过拗口,也可以记它的谐音梗——“贪吃蛇”。

文如其人,“贪吃蛇”对各种语料来者不惧。它可以解析JPEG、TXT、PDF、HTML等20多种文件格式。更令人叫绝的事,“贪吃蛇”还可以解析数学公式、化学分子式。例如,遇到三角函数公式、定积分公式这样的数学公式,遇到环氧乙烷这样的化学分子式,它都也不会躺平,不会胡乱解析为乱码。

总而言之,“贪吃蛇(TCS平台)”覆盖了数据采集、清洗、加工、治理、应用和管理的全生命周期管理,可以应用于模型预训练、模型微调、模型应用等多个环节,极大地提升语料开发效率。

不仅如此。

知识库构建也是企业AI基础设施的一部分。只要企业保有自己的知识库,就可以通过微调得到企业专属的大模型。FDTC2024期间,星环科技正式推出图谱构建工具Transwarp Knowledge Studio for LLM(TKS),他的谐音梗被称为“统考生”。

“统考生”是一套全流程、端到端的知识图谱构建工具集,能够帮助政务、工业、能源等多领域客户高效构建领域知识体系。例如,可以将设备故障数、归零报告、检测报告等语料导到知识图谱,大模型在知识图谱进行推理,即可快速回答相关问题。

而对上述两个平台进行总结,决定企业大模型质量的关键因素是语料,语料的质量决定了模型的质量。另外,高质量行业专用语料,以及知识图谱是企业独特的竞争优势和天然壁垒。星环科技正是通过“贪吃蛇”和“统考生”两个平台,为用户提供“语料开发与知识构建服务”。

这也是“工具链”的第一部分。

大模型是“理科生”

“星环科技希望大模型是‘理科生’。”过去一年,大模型一直像是个“文科生”,因为它能写作、生成,但星环科技的目标是把大模型训练成一个“理科生”,希望它能做数学分析,能够懂自然科学的各个领域、各个学科。更进一步,星环科技还要将“理科生”培养成各领域的“专家”、“资深专家”,直至“大师”。

在此过程中,星环科技开始向无涯大模型投喂物理、化学、天文等自然科学领域的知识,希望掌握金融、交通、政务、化工等行业的专业技能。但孙元浩说这还不够:“企业应用大模型时,希望模型达到99%的准确度,甚至一点也不能出错。”

更进一步,星环科技将目标锁定在提示词、检索增强(RAG)&Agent、有监督微调、预训练等一系列方式,希望以此进一步提升大模型应用体验。以代理Agent为例,星环科技可提供工具,将ERP、HR系统、CRM等应用串接起来,并让每个部门、每位员工在几分钟内创建自己的Agent,进一步提升大模型应用体验。

再以检索增强(RAG)为例,其类似于互联网领域的搜索引擎,可对互联网数据进行检索,再交给大模型归纳总结。但应用于大模型领域,就有一个Bug——企业的外挂知识库没有“搜索引擎”,缺少了这个中间环节,也就不能将企业私有数据进行排序、精排。“解决检索增强的相关技术问题,星环科技就花了近一年的代价,企业大模型的准确度也可提升至99%。”孙元浩说。

当然,这只是星环科技大模型运营平台Transwarp Sophon LLMOps的一部分。(到第五段才引出平台有点晚)该平台可提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。

除Transwarp Sophon LLMOps外,基于无涯大模型底座,星环科技还微调了三款垂类大模型——问答大模型、数据分析(代码生成)大模型,以及多模态大模型,以应对内容生成、数据分析、图片和音视频理解及检索等多样的使用场景。

而就此总结,大模型运营平台Transwarp Sophon LLMOps与星环科技无涯大模型底座,也共同组成了知识平台TKH平台的第二部分——“大模型基础服务”。

看家本领全面升级

星环科技知识平台TKH的第三部分是“知识存储与服务”,这其中包括分布式向量数据库Hippo、分布式图数据库StellarDB、星环分布式分析型数据库ArgoDB、分布式时序数据库Timelyre,以及分布式文件系统TDFS。

上述产品此前是数据基础设施的一部分,也是星环科技的看家本领。当然,为适应大模型的行业落地应用,星环科技对此也是进行了全面升级。其中,最新发布的分布式向量数据库Hippo 2.0可以实现百亿级向量存储,检索性能提升了10倍,内存成本下降了95%,召回准确率大于95%。

全新发布的分布式文件系统TDFS,则支持10亿级以上的大小文件的存储,并同时支持对象存储,基于Raft保障强一致,支持HDFS平滑迁移,标准POSIX协议支持上层知识等AI场景应用无感对接。

星环之“问”

也正是基于“语料开发与知识构建服务”、“大模型基础服务”、“知识存储与服务”三大功能模块,星环知识平台TKH打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用,可广泛应用于金融、能源、制造、工程等多个领域。

其中,无涯·问知是结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品。FDTC2024期间,无涯·问知还正式发布AIPC版本,其打通个人文件资料与企业知识库,形成本地和云端的知识联动推理,且可保障个人的数据安全。

另外,无涯·问数是基于星环数据分析大模型,并结合数据分析主体、指标、标签设计、数据开发和治理,形成了从自然语言转数据查询语言,并返回数据表或数据图表的完整流程。在应用场景上,决策者以自然语言提问,就可快速自助获取目标数据;数据分析人员可实现对话即分析;数据开发人员则可以快速整合多种数据。

星环科技到端到端

最后总结。星环科技正在打造从语料处理、模型训练、知识库建设等的一整套的工具链,数据质量不高,星环科技就推出语料平台;大模型的行业落地需要“理科生”,星环科技就推出运营平台,并攻克了一系列关键技术。与此匹配,星环科技还对看家的数据库产品进行了一系列升级。

总之,星环科技的业务定位,正在从数据基础设施,延伸至AI基础设施。在此过程中,用户只负责借助企业大模型,进一步提升生产力,而剩下的一切都可以交给星环科技。

0 阅读:0

因为科技是阴天

简介:感谢大家的关注