作者 | 葛覃
2013年的孙元浩,一定未曾预想过大模型的到来,但是他笃定数据的生命力,于是星环科技诞生。2023年的孙元浩,当了十年老板也没褪去那股工程师味道,站在演讲台上,又是一通密集的技术和产品输出。
太多公司垂涎于大模型的故事,往往容易忽略掉大模型的本质。学术界和产业界达成共识,大模型不是彻头彻尾的革命级创新,而是日积月累的工程化创新,GPT初生时关注度远不如当下,直到越过奇点、智能涌现的一刻,OpenAI所有的工作被赋予了更高的意义。
关于大模型的一切,也遵循同样的逻辑。对于大模型产业链厂商来说,表面上,大模型考验的是厂商的财力和创新力,实则是技术储备和认知,如果现在才从头开始储备大模型相关技术,那只能祝他们好运。
与其说孙元浩和星环科技投身于大模型,不如说其一如既往地做数据生命力的探索,星环科技依旧在做数据底座、工具链,幸运却又必然地,迎来了大模型的风口。
实现湖、仓、集一体化和多模架构的星环大数据基础平台TDH 9.3,星环十年前就埋下了种子;最新发布的模型持续提升和持续开发工具Sophon LLMOps,星环前前后后做了六年;帮助金融行业客户做大模型,星环三年前就开展了该业务......
大模型落地,先上好“工具”课
想象中的大模型,无限美好,现实落地的大模型,挑战多多。大模型虽然在理解人类自然语言,归纳生成文本,图像生成上,具有惊人的表现,但是它无法理解行业术语,也不能够执行行业的特定任务,它还不能像一个专家一样,针对行业做分析、推理和决策。
企业要构建行业大模型,需要投资算力、基础大模型、LLMOps工具链、语料库、训练指令集,还有上层的应用开发,每个细分领域的领先企业都在思考,如何解决掉产业链一个环节的瓶颈。
大模型让现有数据范式发生极大的改变,我们需要趁手的工具适应新变化,这就是星环科技的实践,为了帮助企业用户基于大模型构建未来应用,星环科技推出了Sophon LLMOps。
Sophon LLMOps具备三大能力,首先是样本仓库能力。覆盖训练数据开发、推理数据开发、数据维护等工作,对大语言模型涉及的原始数据、样本数据、提示词数据做清洗、探索、增强、评估和管理。
其次是,模型运维管理能力。除了传统MLOps的六大统一——统一纳管、统一运维、统一应用、统一监控、统一评估、统一解释外,针对大语言模型的微调、持续提升、评估、对齐等提供从计算框架、工具到计算、存储、通信的调度和优化支持。
最后是大语言模型和其他任务的编排和调度和上线能力。星环Sophon LLMOps提供Agent、Ops、DAG等提示词编排功能,结合星环的多款大数据、数据库产品,如向量数据库Hippo和星环分布式图数据库StellarDB等,将不同大语言模型、传统机器学习、其他流程等编排成符合用户实际领域和业务需求的任务,并为客户提供服务。
“不可能靠一两家的力量去做每个行业的大模型,所以我们的基本策略是提供一个工具,让我们的客户、合作伙伴能打造他自己的模型,他可能有行业知识、有行业积累,就可以用我们的工具能够很快地打造出自己的模型出来,能够开发上面的应用。”孙元浩表示。
大数据智能化、多模态、平民化的递进
如果仔细观察,星环科技LLMOps工具链的内涵还不止于此。正如孙元浩所言,未来数据处理将走向智能化、多模态和平民化,LLMOps与星环科技的其他产品交相呼应。
例如星环科技推出自研的向量数据库Transwarp Hippo。作为一款企业级云原生分布式向量数据库,星环Hippo支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。
再如,星环科技打造面向图智能、业务分析的企业级分布式图数据库StellarDB 5.0。StellarDB 5.0有两大重要变化:一个是实现了动态图功能,能保留所有的历史版本,用户可以按照时间点查询图的历史变更;另一个是对接星环自研的深度图框架ZenGraph,将图数据库技术和深度图技术深度融合,可以用于链路预测,还可以用来进行推理,相比传统的图算法,性能上有8倍的提升,准确率提升23%。
孙元浩也提到,大模型对数据库的影响为两个方面,一是LLMOps需要Dataops,对数据库的需求显著增加,星环科技数年前就开始研究Hippo,以前也在推多模型数据库,本来就支持10种模型,现在增加一个模型来支持更多的非结构化数据的存储和相似度匹配。
第二,大模型也会对数据库核心技术产生影响,数据库的存放都使用SQL接口,还是依赖IT人员做数据分析,星环科技设想,未来数据库可以提供一个自然语言助理,业务分析师和运维工程师是都可以使用自然语言来转化为SQL或Cypher语言,从而实现数据分析、系统运维的效率提升和门槛降低。
向量数据库+分布式图数据库,大大解决了多模态问题,可以让用户构建基于大模型的应用,要让普通人无需掌握复杂工具,就可以快速处理数据,这是星环科技TDH的更新迭代。
星环大数据基础平台TDH,打破了湖仓集的边界,让更多人可以访问实时+历史/原始+加工后的数据,同时多模型统一架构迭代升级,支持统一查询处理语言完成跨模型数据流转与关联分析。星环TDH底座升级到星环TDC,利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,星环科技还推出了数据要素流通产品Navier 3.1让数据流通更便利、更安全、更可控。
目前,星环科技产品已经在多方面上优于很多海外、开源厂商,具备国产化替代能力,大数据基础平台TDH和星环数据云平台TDC联合,可完美地替代CDH/ CDP;分析型数据库ArgoDB,可在批处理和OLAP、Ad hoc分析等场景,替代Oracle/DB2/TD等国外产品;分布式交易型数据库KunDB 3.2可以替代Oracle /MySQL;搜索引擎Scope可替代ElasticSearch;图数据库StellarDB可替代开源图数据库Neo4j;高性能时序数据库TimeLyre可替代开源时序数据库InfluxDB;智能分析工具Sophon Base可在可视化建模分析等场景替代SAS/SPSS。
“我们开发了十年左右的时间,国产大数据技术栈上,我们已经可以完全替代国外的大数据产品,在功能上和性能上基本上领先他们接近一代了。”孙元浩自信表示。
星环科技就在沿着数据生长的逻辑铺就自己的路,大模型训练工具集和大模型应用开发的工具链,让每一个企业都能够打造自己的模型,企业的每一个员工都可以拥有自己个性化的助理,让每个人都可以成为数据科学家。
十年星环已然自证
星环科技的产品究竟能在多大程度上,高效便捷地造就一个行业大模型?星环科技拿出了实证,率先推出了自己的两大行业大模型:金融大模型“无涯”,大数据分析大模型SoLar “求索”。
星环无涯是一款面向金融量化领域、超大规模参数量的生成式大语言模型。使用上百万的专业金融语料,其中涵盖了研报、公告、政策、新闻等高质量的自然语言文本来作为基础大模型的二次预训练语料,具备对包括基本面、技术面、消息面在内的金融通识领域准确的理解能力。
大数据分析大模型SoLar “求索”,是一款针对大数据行业全生命周期各种场景的大数据领域大模型,其可以衍生出众多的子领域子任务微调大模型。按照规划,“求索”大模型将具备大数据行业需求理解、推理、各类(含多模型)结构化查询语言和OpenCypher代码生成、Python/R 等常用数据分析程序代码生成、Query改写、意图识别、文本生成、嵌入向量生成、知识推理等能力;用户只要使用自然语言,就能借助“求索”大模型获取所需数据分析、展示和报告。
星环科技也能够提供运行整套大模型需要的所有基础设施,包括容器化的管理环境,人工智能推理环境,当然还有关键的大数据LLMOps工具链,企业客户能够如星环科技一般,快速构建基于大模型的应用场景。
从行业维度观测,客户的支付意愿先是买大模型,然后是prompt engineering,再之后是工具链和向量数据库等,星环科技没有贪多,而是为自己提前设下了边界,通过无涯和求索,星环科技打磨了自己的能力,也向外界展示出技术储备。
“我们仅做这两个模型。未来成千上万的模型,我们提供工具让合作伙伴去做,每个行业都有它自己的行业壁垒。我们主要是把大模型视作现有产品的增强,其实我们的业务没有任何的变化。”孙元浩说道。
2013年创业时,星环科技没有选择散装组件的方式,而是走上了高度整合的技术路线,提供统一接口,提供统一的计算引擎,数据库统一调用,资源也统一调用,大数据和大模型浪潮到来,当很多海外公司宣称转向多模型时,面临庞杂的重构任务时,星环科技基于统一平台可以快速扩展,前期的“包袱”反而成为如今的竞争优势。
星环科技始终没有跳脱出数据之外,着眼于数据本身朝不同方向扩展,所以星环科技才能在大模型降临之后,拥有令人艳羡的数据技术储备,十年星环已然自证。
孙元浩还在思考着:各行各业的数字化应用,都将通过人工智能和大模型进行改造,星环科技将走向何处?
领域大模型让数据处理的自动化程度更高、结果更能为我所用;数据处理将从单一模态向多模态进化,企业数据分析来到新的次元;数据处理平民化,让普通人不再需要掌握复杂工具,就可以快速处理数据。
这,就是过去、现在和未来,星环科技要走的路。
The End