作者 | 由仪
编辑 | 阿文
一个不算冷的冷知识——1970年,中国发射的第一颗人造卫星东方红一号,依然稳定地运行在近地轨道上,当然,他早已停止工作,只是在引力作用下周而复始地绕行。
东方红一号开创了中国航天史的新纪元,使中国成为世界上第五个独立研制并发射人造地球卫星的国家。如今,人造卫星数量快速增长,通信、遥感等商业化场景不断拓展,卫星产业也迎来了新的发展阶段。
与之对应的是,支撑卫星产业的技术也在与时俱进地迭代,“星环号﹒南信大星”就是其中之一。
“星环号·南信大星”作为中国首颗高功能密度的商业红外气象卫星,搭载了世界一流、国内领先的星载红外探测器,具有超高精度的异常热源发现和预警能力,未来实现星座组网后可提供全球范围内任意地区高频次红外监测数据,填补国际国内市场空白。
时间的流逝是宇宙中最恒定的律动,它悄然无声却无处不在,假如“东方红一号”遇见“星环号”,他一定会惊讶后者所描绘的景象,一个正被数据和AI改变的时代。
“星环号”很难想象,在“东方红一号”发射的时候,计算机还是个稀罕物,卫星发射数据要靠手摇计算器来算,计算一个弹道就要耗时一个月。
东方红一号也很难理解,“星环号·南信大星”居然能在卫星上用AI实时处理数据,两者所收集的数据量级更是千差万别。
当海量数据传输到地面,通过星环科技自主可控的全栈基础软件产品,对卫星气象数据进行分析,从而服务于山火监测、环境保护、能源电力、安全生产、农林渔业、气象、金融等多个领域。
“天上一日,地上一年”,当生成式AI冲击旧有的技术和产业体系,企业该如何搭上新时代的“星环号”?
只靠大模型,解决不了核心问题IT产业从来不缺少新技术,但少有一种技术像生成式AI一般,掀起的热潮一浪高过一浪,大模型厂商渲染着“革命性变革”,仿佛用上大模型的企业就一脚踏入了AI时代,不用大模型的企业就成了昨日黄花。
但是,越来越多人开始清晰认识到,企业需要的并不是大模型,而是AI时代的生产力,改进已有的,创新未有的,这是先行者观察到并付诸实践的核心。
大模型或者是人工智能这项技术本身并没有核心的价值,它需要一个载体才能够真正发挥作用,场景的探索成为大模型的关键因素。同时企业也需要能够提供足够的底层算力,支撑大模型这项技术不断地发展。
此外,企业需要能够具备集成多元的非结构化数据,能够让大模型有数据可用,并且针对于企业场景开发出最适合企业业务和运营场景的一系列解决方案,才能真正让企业受益于大模型。
IDC中国副总裁钟振山提到,对于一个企业来讲,如何去使用好企业内部已有的数据资源,让大模型更好地理解企业自身的业务和运营的特点,可能会成为企业成功落地大模型这项技术的关键因素,同时搭建一个现代化的成熟知识管理体系,也成为决定企业是否能够成功使用大模型的关键因素。
星环科技创始人、CEO孙元浩亲身经历了行业的变化,在他看来,过去一年,企业落地大模型有很多挑战,贯穿在大模型、语料工具、大数据平台和LLMOps工具链等各个环节。
首先是大模型本身的准确度较低,大模型本身在文科方面的表现大幅超过数学问题,星环科技对大模型进行微调和重训练,按照学校教学体系一样,投喂各种数理知识,以及金融等方面的专业知识,在一些场景下准确度可以提升到90%以上。
其次,大模型需要企业内部数据知识化,单靠大模型参数的提高,即便是万亿参数的GPT-4,也无法做到生产场景可用,星环科技着手帮助企业实现内部数据知识化,比如将债券类行业数据做成知识库,再将其用于训练大模型时候,可以达到99%的准确度。
“模型结构和训练方法都不是秘密,企业的语料存在各种地方,需要把现有资料整理起来训练或微调模型,是巨大且繁琐体力活,这是目前最大的挑战,不是之一,这是最大的挑战。”孙元浩强调。
有了大模型和知识库并不是万事大吉,在部署时需要调用企业已有的软件和工具,例如像ERP、HR系统、CRM系统等,每个企业、部门、个人的要求都不一样,全部定制化成本太高,星环科技希望打造一个工具,让用户几分钟可以创建一个agent,这就形成了LLMOps工具链。
当这些来自于企业客户的真实需求,经过星环科技消化并且凝聚成工程化平台,这就是星环科技战略进化的主线——从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施。
从Data Infra到AI Infra“很多公司都在做AI应用,我们定位做AI基础设施。大模型确实可以快速解放生产力,很多体力活可以用AI解决,星环科技希望打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用AIGC。”孙元浩表示。
如此便有了星环科技所推出的AI基础设施,其中的核心产品,自左至右分别是知识图谱构建工具,大模型应用管理工具以及知识库数据平台。
首先,企业用户利用星环图谱构建工具Transwarp Knowledge Studio for LLM,可以将企业内部数据、个人经验数据和公开信息数据转化为知识,个人经验数据的知识转化和不断的模型微调让知识库建设更具个性化,真正实现个性化、专家级大模型应用。
其次,一站式多场景语料平台Transwarp Corpous Sudio(TCS),覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,具有多种灵活的采集和构建方式,能分布式的高效处理海量语料。TCS支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。
然后,大模型运营平台Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。
最后,星环知识平台TKH提供企业级多模态知识存储与服务,助力企业打造新一代一站式多模型数字底座。基于Transwarp Data Hub for LLM知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理,满足各类场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。
通过这些平台和工具,星环科技将目前大模型能做的事情落地,典型如知识平台,相当于星环科技将数据基础设施和AI基础设施融为一体,以往大型企业才有认知和资源建设数据基础设施,如今更多企业可以用星环科技的知识平台,快速创造生成式AI的生产力。
时代变了,星环科技没变从Data Infra到AI Infra,看似星环科技向AI转向,但本质上其并没有改变出发点,而是事随时移,星环科技做出的应对。
“AI基础设施与我们以前定位基本一致,数据基础设施发生很大变化,现在客户都在向智能化转型,数据平台要为AI提供支持,本身数据平台也在做大的变革,我们支持分布式数据清洗、加工,也能够支持预训练,知识图谱也在做升级。”
星环科技描绘了一副完整的大数据、AI基础设施的技术和产品地图,全面完善了从基础设施到应用的产业链条,甚至到了AI原生应用层面。
基于星环科技的无涯大模型,星环知识平台TKH打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用。值得一提的是,星环科技打磨应用的定位也是为了降低客户的使用门槛,并且证明其AI基础设施的可用性。
以无涯·问知为例,其是一款基于星环科技大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源的企业级垂直领域问答产品,允许用户上传文档、表格、图片等多源数据,并支持与外部数据源的对接,使用户能够构建属于自己的专属领域大模型。
无涯·问知包括四大应用场景:企业可以基于星环知识库TKH,建立企业自己的知识库应用;当企业算力不足时,可以采用安装了天涯·问知的AIPC,在本地直接访问天涯·问知,以弥补AI算力不足问题;中小企业用户不用自己构建知识库,可以直接利用星环科技无涯·问知公有云服务;对于个人而言,可以利用AIPC或者公有云服务,访问天涯·问知服务。
此外,在数据基础设施层面,星环科技也更新了大数据云平台推出TDC 5.0,将原来的多个TDH集群统一纳管,分布式交易型数据库KunDB 4.0,大数据开发工具TDS 4.0,以及星环大数据安全与隐私保护工具软件Transwarp Defensor、星环数据要素流通平台Transwarp Navier。
“过去建设数据基础设施是单一的,现在是统一的规划,因为AI资源更加稀缺,客户更希望统一建设,让各个部门快速用上大模型。”孙元浩补充道。因AI而升级的数据基础设施,市场空间也大大拓展,星环科技没有理由错过这次机会。
大模型拓宽了企业的想象力和业务场景,要将想象变为现实,更多企业需要搭上“星环号”,用数据和AI改变自身的生产关系,进化为新时代的AI原生企业,这是星环科技希望帮助企业所实现的目标。