作者| 程茜
编辑|漠影
智东西11月28日报道,就在昨天,猎户星空正式发布开源Orion-MoE 8x7B参数MoE模型,并与聚云科技共同发布大模型数据服务——AI数据宝。
猎户星空首席科学家韩堃介绍道,AI数据宝AirDS(AI-Ready Data Service)可以为企业提供全方位的大模型数据服务,涵盖数据收集、清洗、标注、提示词工程以及评估等全方位环节。AI数据宝是底层模型和上层应用之间的重要桥梁。
一直以来,数据、算法、算力作为大模型发展的三驾马车缺一不可,如今算法、算力的差距明显缩小,数据的重要性愈发凸显。相比于算法和算力,数量充足、高质量的数据是大模型效果、应用开发的关键,也是AI应用效果能拉开更大差距的核心。在大模型商业闭环中,数据明显成为最直接影响其在垂直行业落地效果的关键。
因此,在AI数据宝发布之际,猎豹移动董事长兼CEO、猎户星空董事长傅盛在接受智东西等媒体采访时提到,捅破AI行业窗户纸,百模大战靠数据,数据是行业场景落地的制胜关键。
在此背景下,依托猎户星空的大模型能力、对数据收集、标注以及提示词工程等全方位能力以及聚云科技对中国出海企业场景需求的理解,成为当下业内唯一一家既做大模型,又将大模型数据服务开放出来的公司。
这在当下对于大模型产业发展,在技术、生态等诸多布局方面都有重要意义。
一、“炼丹”容易“修仙”难,数据是场景落地的制胜关键从去年至今,基于革命性神经网络Transformer架构的ChatGPT引爆AI产业,再到得算力者得天下的算力时代来临,英伟达GPU被疯抢……算法和算力的激烈竞争已经放缓。
伴随着大模型产业竞争升级,应用落地加速,算力层面大家选择的都是同样的卡,算法层面企业大都会选择成熟的Transformer架构,这两架马车已经无法成为企业拉开差距的关键,其重要性已不可同日而语,反观数据则成为了当下各路诸侯的制胜关键。
这背后的一大关键话题就是:“炼丹”容易“修仙”难。
更加多元的AI应用涌现,并已经展现出在各行各业落地的价值,但这只是大模型发展的冰山一角。能真正让大模型在各行各业发挥最大价值,真正让企业用好大模型实现降本增效并不容易,数据的多少、质量如何,是企业能否构建一个好的AI应用的关键。
不过,仅仅拥有数据就够了吗?答案是否定的。企业在选择AI应用时,最关键的就是其不出错且在此基础上能大幅提高业务效率。但正如猎豹移动副总裁童宁所说,早期企业进行大模型应用开发时,并没有找到合适的路径,其只能看到模型的排名高、口碑好,无法洞察到冰山之下应用开发过程中的诸多难题。
而这些难题往往事关大模型深入企业业务的具体效果,如数据是否准确、真实,数据的多样性是否足够,是否进行了提示词优化。
冰山之下的“修仙”之路任重道远,企业需要对数据进行清洗、标注,模型微调、强化,以及对大量文字、图片、视频、音频甚至3D等多模态数据进行快速处理,这都与避免大模型幻觉,突破大模型识别、理解的正确率强相关。傅盛认为,大模型数据服务正是产业链中决定大模型基础能力的关键,需要和应用高度结合,将高质量数据找出来。
这对于企业而言是必须要解决的难题,但诸多企业当下在数据处理方面有门槛,目前市面上的数据处理工具也各有利弊,因此,什么样的数据服务才能将大模型的基座能力与好用的应用承接起来,是摆在进行大模型应用开发的企业面前的一大难题。
二、既做大模型、又做应用开发,让模型、数据、业务形成闭环今年以来,百模大战落下帷幕,AI应用成各家必争之地。
那么,在这之中谁来提供数据服务才是最优解?什么样的企业才能将模型、业务和数据串联起来?
我们可以先从今天猎户星空的新发布说起。
猎户星空与聚云科技联合发布AI数据宝AirDS,其提供了围绕着数据的一整套服务,包括数据清洗、数据标注、提示词工程、如何评测模型等,让企业基于大模型快速构建好用的应用。
事实上,数据服务这一赛道并不是新兴领域,目前行业中已经形成科技巨头公司、专业基础数据服务商、初创科技企业三足鼎立的局面。但对于目前企业的数据服务而言,这三类企业各有利弊。
此前,知名市研机构德勤咨询发布的《AI基础数据服务白皮书》就提到,传统的专业型基础数据服务商是行业重要组成部分,科技巨头企业依托其科技实力和强大资源,逐渐占据了竞争优势。
其中,科技巨头公司拥有自动化标注、专业数据采标及全栈式服务能力,其综合能力最强,但这些服务并没有完全开放,部分仅限于这些巨头企业的客户;专业型基础数据服务商布局早,服务经验积累深,在市场中占有较大份额,其最大优势是低成本人力服务,但相比于AI标注工具,目前人力服务在成本和效率方面已经不占优势;科技初创公司专注于通过自动化标注、AI标注工具切入市场降低人力成本,但相比于巨头玩家其客户资源并不充足。
这背后,猎户星空与聚云科技的结合,就很好将两者的优势相联动,并规避了不同类型企业的缺点。
相比于大模型公司和传统数据标注公司,AI数据宝AirDS拥有大模型研发、大模型数据服务、行业服务、AI应用开发成体系的能力。童宁谈道,猎户星空既做大模型研发,提供大模型数据服务,同时去年以来已经在行业内进行了AI应用开发、交付等,并且聚云科技长期以来服务于中国品牌企业出海,因此拥有全链条端到端能力,因此其既拥有结合AI和人工的数据标注服务,还有一定量的客户资源。
这样一来,模型、数据、业务形成闭环,猎户星空的AI数据宝商业化已经跑通了。
目前,AI数据宝AirDS已经应用到了移动通信终端、互联网娱乐、新能源汽车、互联网金额、消费零售等领域企业中,其可以服务于多元化类型的中国品牌出海企业。
如某全球化移动终端客户基于AI数据宝AirDS+多语种,解决了本地化场景语言适配的难题,AirDS通过收集多场景、覆盖20多种语言的数据完成开发测试平台,优化提示词工程后,使得该公司的相关评测指标结果的准确率超过95%。
可以看到,大模型如何实现商业价值,是当下产业发展的关键命题,猎户星空已经率先找到了一条可行路径。
三、聚合AI技术+出海服务优势,猎豹移动整合优势凸显此次猎户星空发布AI数据宝并率先跑通商业化背后,隐含着两个问题,那就是为什么猎户星空能做,以及为什么猎户星空先做成了。
归结起来,就是猎户星空对于AI产业的专注与坚持以及聚云科技对客户出海需求的深刻洞察。
一方面,猎户星空自2016年成立就坚定自研全链条AI技术,猎户星空首席科学家韩堃谈道,从最初豹小秘的智能语音交互系统、激光和视觉多模态系统,再到招财豹智能室内导航系统,目前,猎户星空还在进行具身智能方面研究。
这之后,2021年底ChatGPT爆火,猎户星空基于其多年的AI技术储备快速切入,为客户提供了AI应用、模型微调等服务。随后,2023年中期,该公司走上了自研大模型的道路,从头开始训练了今年年初发布的“为企业应用而生”的开源百亿参数模型Orion-14B。
今年,为了满足客户对模型速度快和效果好的需求,猎户星空选择了MoE路线,并于今天推出Orion-MoE 8x7B-Base模型。
Orion-MoE 8x7B模型的总参数为48B,每次执行任务的激活参数为14B。主要中英文测评集效果对比显示,Orion-MoE 8x7B模型效果,日语、韩语、西班牙语等多语种能力方面表现整体优于Mixtral-8x7B等同级别参数模型。
推理速度方面,与类似效果的稠密模型进行对比,Orion-MoE 8x7B不同GPU不同并发数速度对比同级别参数模型提升可20%-30%。同时,这一模型已经完全开源,已上线GitHub、Hugging Face等平台。
另一方面,聚云科技成立于2020年,其前身是猎豹移动出海1.0时期的IT运维服务部门,拥有超过10年的出海运维经验,目前已服务出海中国品牌企业有上百家,是亚马逊云科技在中国首批获得生成式AI能力认证的高级咨询合作伙伴,同时在今年以满分成绩通过亚马逊云科技MSP认证 Renewal。
此外,在大模型数据服务能力层面,猎豹移动控股的猎户星空对通过提升数据质量来改善大模型效果有着充分的实践经验。
而这些都得益于猎豹移动的业务基因以及整合优势,近年来,猎豹移动战略转型从传统的ToC业务转向以AI和大模型为核心的ToB业务,并通过控股猎户星空,进一步加强在AI服务机器人和AI大模型领域的布局。此次猎户星空和聚云科技联手打造的AI数据宝,正是这一布局的集中体现。
在这一背景下,模型、业务、数据通过AI数据宝将模型和企业真正串联起来,实现大模型商业化闭环,加速大模型的应用落地。
此外,猎户星空还宣布与香港大学计算与数据科学学院签订了合作协议,双方将联合研发用于课程教学场景的AI应用教育工具,并开展“专注具身智能相关的课程项目”,共同推动AI技术在应用领域的普及与应用。
综上可以看出,AI应用创新探索进入关键期,数据这类基础设施的作用愈发重要,让企业用好数据更为关键,这正是猎户星空当下在做的事。
结语:8年积淀,搭建大模型发展与企业需求互通之桥数据在大模型发展中愈发重要,丰富的数据资源可以让模型及时学习和适应新变化,满足用户在不同场景下的需求,AI数据服务就成为模型和上层应用之间的重要桥梁。
将数据更好利用起来,是大模型实现商业闭环的重要一步。猎户星空正依托自己在AI领域8年的探索,联动聚云科技对于出海企业核心需求的洞察,转化为架起企业需求与大模型发展的桥梁。