卷语料、理科生、应用工具化，星环科技的三个基本判断

星环科技有几个基本判断：

判断一：大模型卷参数，不如卷语料。卷参数已经接近天花板，卷语料质量，而不是语料数量才能以最小的代价，提升大模型能力，而且帮助企业将内部数据知识化，更能进一步提升语料养分。判断二：仅依靠语料也不能将大模型训练成“理科生”，从“文科生”到“理科生”涉及从预训练到微调，到强化学习，到持续模型评估的一系列的能力加持，也涉及检索增强（RAG）等关键技术。

判断三，应用工具化才能增强大模型的应用体验，代理Agent可将ERP、HR系统、CRM等应用变成工具，帮助企业生成报价单，进行合同审核、撰写标书。每个部门、每位员工都应该在几分钟可以创建自己的Agent。

上述三个判断，正影响着这家公司的业务思路。

从数据基础设施到AI基础设施

“如果大模型是‘新一代的超级计算机’。”FDTC2024期间，星环科技创始人、CEO孙元浩展示了他眼中的大模型落地框架，此框架分为三部分：“中间部分的代理Agent相当于CPU，左边部分的知识库相当于磁盘，右边部分的应用对应的是各类工具插件。”

支持这台“超级计算机”的则是AI基础设施。与此对应，星环科技的定位将从数据基础设施，进一步延伸到AI基础设施，并通过全新推出的Transwarp Knowledge Hub知识平台（以下简称TKH），打造从语料处理、模型训练、知识库建设等的一整套的工具链，帮助企业构建AI基础设施，加速大模型行业落地。

从数据到知识

挑战也由此而来。

“模型结构已经不是秘密，训练方法也不是秘密，现在企业缺的是语料。”话锋一转，孙元浩接着说：“其实，用于大模型训练的语料远没有耗尽，中国的企业也并不缺语料，只是数据语料散落在企业的各个角落。将数据语料汇集整理，用于模型训练或微调，是目前最大的挑战。”孙元浩强调说：“不是之一，这是最大的挑战。”

这也是星环科技AI基础设施中，出现的第一个技术板块。FDTC2024期间，星环科技正式发布一站式多场景语料平台Transwarp Corpous Sudio（TCS）。如果嫌TCS读起来太过拗口，也可以记它的谐音梗——“贪吃蛇”。

文如其人，“贪吃蛇”对各种语料来者不惧。它可以解析JPEG、TXT、PDF、HTML等20多种文件格式。更令人叫绝的事，“贪吃蛇”还可以解析数学公式、化学分子式。例如，遇到三角函数公式、定积分公式这样的数学公式，遇到环氧乙烷这样的化学分子式，它都也不会躺平，不会胡乱解析为乱码。

总而言之，“贪吃蛇（TCS平台）”覆盖了数据采集、清洗、加工、治理、应用和管理的全生命周期管理，可以应用于模型预训练、模型微调、模型应用等多个环节，极大地提升语料开发效率。

不仅如此。

知识库构建也是企业AI基础设施的一部分。只要企业保有自己的知识库，就可以通过微调得到企业专属的大模型。FDTC2024期间，星环科技正式推出图谱构建工具Transwarp Knowledge Studio for LLM（TKS），他的谐音梗被称为“统考生”。

“统考生”是一套全流程、端到端的知识图谱构建工具集，能够帮助政务、工业、能源等多领域客户高效构建领域知识体系。例如，可以将设备故障数、归零报告、检测报告等语料导到知识图谱，大模型在知识图谱进行推理，即可快速回答相关问题。

而对上述两个平台进行总结，决定企业大模型质量的关键因素是语料，语料的质量决定了模型的质量。另外，高质量行业专用语料，以及知识图谱是企业独特的竞争优势和天然壁垒。星环科技正是通过“贪吃蛇”和“统考生”两个平台，为用户提供“语料开发与知识构建服务”。

这也是“工具链”的第一部分。

大模型是“理科生”

“星环科技希望大模型是‘理科生’。”过去一年，大模型一直像是个“文科生”，因为它能写作、生成，但星环科技的目标是把大模型训练成一个“理科生”，希望它能做数学分析，能够懂自然科学的各个领域、各个学科。更进一步，星环科技还要将“理科生”培养成各领域的“专家”、“资深专家”，直至“大师”。

在此过程中，星环科技开始向无涯大模型投喂物理、化学、天文等自然科学领域的知识，希望掌握金融、交通、政务、化工等行业的专业技能。但孙元浩说这还不够：“企业应用大模型时，希望模型达到99%的准确度，甚至一点也不能出错。”

更进一步，星环科技将目标锁定在提示词、检索增强（RAG）&Agent、有监督微调、预训练等一系列方式，希望以此进一步提升大模型应用体验。以代理Agent为例，星环科技可提供工具，将ERP、HR系统、CRM等应用串接起来，并让每个部门、每位员工在几分钟内创建自己的Agent，进一步提升大模型应用体验。

再以检索增强（RAG）为例，其类似于互联网领域的搜索引擎，可对互联网数据进行检索，再交给大模型归纳总结。但应用于大模型领域，就有一个Bug——企业的外挂知识库没有“搜索引擎”，缺少了这个中间环节，也就不能将企业私有数据进行排序、精排。“解决检索增强的相关技术问题，星环科技就花了近一年的代价，企业大模型的准确度也可提升至99%。”孙元浩说。

当然，这只是星环科技大模型运营平台Transwarp Sophon LLMOps的一部分。（到第五段才引出平台有点晚）该平台可提供一站式企业级大模型生产及应用全流程开发工具链，助力企业完成从预训练到微调，到强化学习，到持续模型评估的全生命周期，让每个企业都能构建自己的专属大模型。

除Transwarp Sophon LLMOps外，基于无涯大模型底座，星环科技还微调了三款垂类大模型——问答大模型、数据分析（代码生成）大模型，以及多模态大模型，以应对内容生成、数据分析、图片和音视频理解及检索等多样的使用场景。

而就此总结，大模型运营平台Transwarp Sophon LLMOps与星环科技无涯大模型底座，也共同组成了知识平台TKH平台的第二部分——“大模型基础服务”。

看家本领全面升级

星环科技知识平台TKH的第三部分是“知识存储与服务”，这其中包括分布式向量数据库Hippo、分布式图数据库StellarDB、星环分布式分析型数据库ArgoDB、分布式时序数据库Timelyre，以及分布式文件系统TDFS。

上述产品此前是数据基础设施的一部分，也是星环科技的看家本领。当然，为适应大模型的行业落地应用，星环科技对此也是进行了全面升级。其中，最新发布的分布式向量数据库Hippo 2.0可以实现百亿级向量存储，检索性能提升了10倍，内存成本下降了95%，召回准确率大于95%。

全新发布的分布式文件系统TDFS，则支持10亿级以上的大小文件的存储，并同时支持对象存储，基于Raft保障强一致，支持HDFS平滑迁移，标准POSIX协议支持上层知识等AI场景应用无感对接。

星环之“问”

也正是基于“语料开发与知识构建服务”、“大模型基础服务”、“知识存储与服务”三大功能模块，星环知识平台TKH打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用，可广泛应用于金融、能源、制造、工程等多个领域。

其中，无涯·问知是结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品。FDTC2024期间，无涯·问知还正式发布AIPC版本，其打通个人文件资料与企业知识库，形成本地和云端的知识联动推理，且可保障个人的数据安全。

另外，无涯·问数是基于星环数据分析大模型，并结合数据分析主体、指标、标签设计、数据开发和治理，形成了从自然语言转数据查询语言，并返回数据表或数据图表的完整流程。在应用场景上，决策者以自然语言提问，就可快速自助获取目标数据；数据分析人员可实现对话即分析；数据开发人员则可以快速整合多种数据。

星环科技到端到端

最后总结。星环科技正在打造从语料处理、模型训练、知识库建设等的一整套的工具链，数据质量不高，星环科技就推出语料平台；大模型的行业落地需要“理科生”，星环科技就推出运营平台，并攻克了一系列关键技术。与此匹配，星环科技还对看家的数据库产品进行了一系列升级。

总之，星环科技的业务定位，正在从数据基础设施，延伸至AI基础设施。在此过程中，用户只负责借助企业大模型，进一步提升生产力，而剩下的一切都可以交给星环科技。