业内关于如何最大限度激发大模型潜力,以及打造“新质生产力”的争论似乎将在今年落下帷幕。眼下,大模型成为 “爆改”千行百业的抓手,让一切相关技术的突破都来得热闹且快速。
不过,大多数突破都只是停留在基础模型层面和浅层应用,我们能看到无数大模型的落地妙想,只是于生产力的本质和商业化程度而言,却与此前大差不差。究其原因在于这些技术性的突破大多停留在Demo阶段,技术产品化难言成熟,以至于有人用“期货”调侃。
比如于年初掀起多模态革命的Sora,这款产品迄今都未曾正式发布。而引爆全球的LLaMA 3.1,仍旧是基于Scaling Law的基础模型。就算其为开源派壮了不少声势,但受限于Meta一次性可调用的GPU数量,这个爆点对渴望落地的国内大模型赛道的推动亦有限。
在众多卷基础大模型能力的企业中,我们发现京东云选了不一样的路径。
7月30日,京东云峰会上,京东集团技术委员会主席、京东云事业部总裁曹鹏提出,通用大模型是靠算力堆起来,企业大模型要靠业务跑出来。供应链是京东跑马大模型前沿技术和产业应用的天然练兵场,当其他企业还在训练大模型或攻坚智能体时,京东内部已经上了“手”。
据了解,过去一段时间中,京东在超100个AI场景已经全面铺开大模型应用,近35万京东自有配送员、超23万商家、超5万副主任级别以上医生、超2万采销运营、超1万研发人员都在使用,并拿下了大模型时代的首个大规模商业化应用里程碑——京东云言犀数字人。
透过数字人的商业化突破,京东言犀大模型无论是技术能力还是应用落地,都得到了来自大量实际场景专业数据的“喂养”。可以说,本次京东云在峰会上发布的包括言犀数字人3.0平台、言犀智能体平台以及企业构建大模型全栈服务等产品,不过是其基于深度产业knowhow和供应链场景的水到渠成。
让大模型在产业里先跑起来,数字人吹响前哨“数字人实际上是诸多技术融合的载体”,京东探索研究院院长、京东科技人工智能业务负责人、IEEE Fellow何晓冬博士提到,文案生成、语音融合、形象渲染、多模态等能力高低都会影响数字人的实际落地情况。
因此,数字人才被视为当下大模型多模态技术落地的诸多场景中,跑得最快,商业化最成熟,且实际应用频率最高的一个。
众所周知,不论是大模型的技术产业适配还是多模态的技术内需,其面对的一大挑战便是需要不同类型的数据对齐,以及围绕同类型的能力需要不同建模。这需要一个标准化的interface作为校验多模态能力以及持续迭代,就是数字人。
而今距离“采销东哥”数字人进入直播间已过去三个多月,一大批大中小商家在此期间入局。一个重要原因是数字人降低了直播电商的门槛。对于零售电商而言,以数字人为代表的AI技术,很大程度上实现降本提效;对于AI而言,零售电商则是一众大模型服务商突破场景壁垒的关键钥匙。
从品类、客单价、场域的不断突破,我们能看见数字人突破场景边界的清晰脉络。无论是大模型能力还是产品化后的AI应用,场景都是最好的试金石。
据了解,京东云言犀数字人上个阶段初步解决了大姿态、交互等贴合实际直播场景中的问题,到目前言犀数字人3.0平台已经上线了100+个性化角色,50+特色行业属性场景并以平台化形态落地。而转动起场景飞轮的言犀大模型,也在以极快的速度不断解锁新能力,逐渐成长为有情感、个性化的数字人。
语言方面,在不同场景中积累了更多数据,放大了模型参数量,让言犀数字人在零售、金融等领域的长文本理解和推理能力。语音合成方面,超20万小时训练量,让京东数字人音色的自然表现度上有了明显提升,一些带口音的微妙变化都能捕捉到。
京东云言犀技术团队提到,在数字人之间的交互已经可以做到让其表现出聆听状态。聆听姿态让数字人直播从“单口”到“群口”,真人与数字人混播以及多数字人直播将变成可能。此外,言犀数字人大模型有更好的通识理解能力,实现“零样本”数字人生成,这意味着生成新形象,将不再需要预训练。
实际场景又为大模型提供了更精准的数据来源,从而转动京东大模型的数据飞轮,加速应用生长。短短几个约时间,语音合成所需时间从6月份的6秒,缩短到如今的3-5秒左右。
何晓冬博士表示,大模型的核心人机交互介质是智能体、数字人、具身智能,分别满足了云、端、线下不同场景的交互需求,共同构建起下一代智能交互的完整触点。
Meta创始人扎克伯格亦在访谈中提到,未来的AI 智能体甚至可能会比人类还多,人们会以各种方式与之互动。
智能体、数字人、具身智能是满足不同场景需求,但本质上都是基于同一套大模型“底座”“。借由数字人这项业务单点突破而后全面铺开,在业务中生长与进化,这是京东云独有的产业驱动导向的大模型落地路径。
由点及面,大模型应用全面铺开“虽然我们面向B端服务,但落脚点却始终在用户体验升级上”,京东云言犀团队认为,数字人B2B2C的底层逻辑让这项技术的应用落地可以被快速复制到京东业务的方方面面,甚至开辟新的业务线,为京东开拓更多AI试验田。
比如,以AI社交为代表的泛娱乐应用固然可以在一定助推甚至是冷启动的情况下,透过年轻化的公域快速裂变,但这类应用的留存率却相对“感人”。工具类应用一定程度上平衡了留存与推荐的权重,然而缺乏快速裂变的能力,也限制了应用本身的场景宽度。
近段时间,一众AI应用层的创业独角兽均被曝寻求收购,很大程度上便源自于此。如用户大量流失的AI社交应用Character.AI,以及无法仅依靠订阅跑通商业模式的AI搜索明星Perplexity。
大模型应用的可靠性,场景和数据飞轮究竟能不能转起来,呈现互为因果的关系。这也是京东认为“企业大模型靠业务跑出来”的底层逻辑。
从数字人这个点来看,电商场景的应用宽度、深度构建了京东大模型的鲁棒性,而不同品类的商详知识、不同行业领域知识、大规模交互数据则完成了数据的互补。这便是应用深度为大模型能力带来的快速跃升。
消费是距离用户最近的场域之一,数字人在零售电商泛场景的锤炼让京东的多模态大模型技术由点及面成为可能——除电商直播场景外,京东云言犀数字人还在文旅、金融、智能服务、政务咨询等更广泛的场景应用落地,通过与亿级用户智能交互,带来下一代交互体验。
比较典型的案例是,京东数字人的多模态情感识别能力顺畅地延展到了客服场景。我们自京东方面了解到,金融业务目前已有超过半数的用户在客服场景由数字人接待,迄今已服务超过500万用户,24小时问题解决率高达85%,满意度超90%。
高质量的垂域知识也让京东加快了云端交互为主的智能体的产品化步伐。本次峰会上正式发布了新一代一站式 AI Agent 开发平台——言犀智能体平台。平台已接入数十个大模型,用户可以低成本快速搭建基于 AI 模型的各类智能体。如今,活跃在京东内部的智能体超3300个,平台还沉淀了100多个行业解决方案模版。
从产业中来,到产业中去。业务与问题驱动的京东言犀大模型无意间加速了技术迭代的进度,这反倒催生了以往未被人注意到的需求。线下文旅场景,基于京东大模型能力的山西大同花木兰数字人、江西新余数字人、云南楚雄数字人小彝妹以展示大屏、短视频等终端为载体,丰富游客体验并提速景区商业化;企业侧,不少大型企业也萌生了定制数十万员工数字人形象的需求。
基于大模型这个“大脑”,多模态技术让用户的交互界面的变革悄然发生。
“从文字走向视频化,再走向行业。我们验证了数字人大规模商业化的突破口,形成了行业标杆的效应”,被问及数字人乃至京东大模型的应用前景时,京东云言犀团队难掩兴奋。
毕竟,长期让规模跑在商业化前头的大模型赛道,可算有了能让两者并驾齐驱的方法论。
边用边训,转动产业应用的技术飞轮越来越多的大模型应用,正在京东供应链上生长,并于京东内部超100个AI场景全面铺开。我们可以随意像报菜名一样拉出智能体平台、总裁数字人、智能客服、AI外呼,还是面向商家的商家客服京小智、AIGC商品图生成乃至京东供应链之内小哥终端智能助手、编程助手Joycoder、康康健康助手等一系列应用。
不过,应用只是大模型服务商能力输出的前端,如何授人以渔才是重头戏。包括训练、精调、压缩、拉升等在内的大模型能力构建才是AIGC时代下,新质生产力的内生力量。
京东有别于其他模型服务商的不同在于,其将夯实基座模型作为过程,目的是从基础设施到Agent应用,构建全场景的大模型服务能力,持续推动大模型落地产业,输出供应链的行业knowhow。
就像上半年卷疯了的长文本,该技术路径是大模型接受大量文本数据的输入后,将信息处理并分析推理,最终按不同应用场景和需求输出多种多样的结果。
京东透过应用,让大模型这个新质生产力在产业内跑起来是输入,那么其对外开放的企业模型构建能力便是输出。
我们了解到,京东的大模型技术在产品化前,都会率先在内部完全跑通。尤其是业已为其所平台化的数字人与智能体两大人机交互介质,无论是数字人的生成还是智能体的构建,京东都做到了让零经验的运营们抛开算法部门独立搭建。
强易用性、“零”样本、“零”幻觉是京东大模型技术栈产品化的先决条件——可靠性是前提,易用性是基础。
如果我们再向底层基建下探,就能发现言犀大模型技术栈中与产业完全适配的关键,在于其大模型渐进式拉升与压缩技术。好比科幻电影《黑客帝国》中的Neo,是架构师(Architect)眼中的“唯一”。
去年末起,为了捅破大模型与产业间的那层窗户纸,大模型的拉升与压缩能力成为AI军备竞赛的赛点。这本质上是针对企业关于大模型的通用能力、垂域能力、响应时间等不同需求的一种大模型“场景适配”。更重要的是,京东在基础的拉升与压缩之上,还做到了同步灌注垂域知识,甚至实现领域数据自进化并注入模型中。
海量垂域数据的灌输必将产生过拟合,好比一个学生,平时做习题做得很好,考试成绩却很差。为了让大模型能“举一反三”,只好不断增加训练集,然而这又将导向费时费力的人工标注。如何以较低成本解决过拟合问题,是捅破前述窗户纸的关键。
自技术路径上看,京东的做法与此前的深度学习框架fast.ai异曲同工。只不过而fast.ai是在数据层,透过渐进式图像分类数据集,而京东则是在模型层发力。
一般来说,多模态大模型相对更注重全局理解,垂类、细颗粒度理解与情感识别是“短板”。京东之所以能在数字人、智能体等应用上率先取得商业化的突破,根源便在于“边训边用”,让京东同时转起了产业和技术的飞轮。
在寻找新质生产力的历史叙事中,京东云凭借产业供应链深度,已然率先跑通了应用乃至基础设施构建的全链路。随着面向公众的言犀智能体平台与言犀数字人3.0平台的正式发布,来自产业的knowhow又将触及更广阔的场景,打造更全面的生态。
角逐基座模型、Demo与某项技术之巅,或许会将行业引入垃圾时间,更多创新与确定性的未来,诞生于产业之中。