不止于好看的皮囊,盘古大脑为数字人注入灵魂

TechForWhat 2024-07-31 17:52:22

作者  |  常棣

编辑  |  葛覃

数字人进入千行百业的场景之中,比想象得要快,也比预期中更难。

所谓数字人,可以理解为通过计算机图形学、语音合成技术、深度学习等聚合科技创造,并具有人的外观、行为、甚至思考方式的可交互虚拟形象。

不知从何时起,数字人已经出现在很多业务领域,例如24小时不间断的数字人主播,随时在线解答问题的数字人客服,文旅行业复现的古代数字名人等,他们以不同的角色和形态,成为现实世界与数字世界之间的桥梁。

然而,正如所有技术发展会经历的成熟度曲线,数字人也难免落入窠臼。绝大多数数字人依靠算法预先编程和基于规则的系统,在特定情境中做出行为和反应,无法真正理解环境或从经验中学习。

当始于颜值的数字人行至产业分岔路口,大模型会是数字人终于价值的答案么?华为云盘古大脑试图回答这一问题。

大模型,重新定义数字人

任何技术只有准确的定位,才能充分发挥其价值。数字人是多种前沿科技的集大成者,但是此前的技术融合缺少一味“主药”,数字人要想接近真人般的交互,不只在于一副好看的皮囊,更在于“独特的灵魂”。

过去AI数字人仅仅将2D图片转换为3D数字人,用于带货、直播等偏娱乐的场景,却无法大规模落地解决产业级问题。如果不同的数字人只是外表有差别,相当于旧有业务系统的核心未变,仅仅加上了一层华而不实的外衣,价值空间终究有限。

直到大模型的出现,重新定义了数字人,也大大拓宽了数字人的想象空间。

数字人的落点在于“人”,要在数字世界进一步接近人工智能,数字人需要有更先进的算法、更强大的算力以及更深层次的感知和理解能力,这就是大模型对于数字人的意义。

此外,现在的数字人在预训练大模型的推动下,不但能够将数字人的制作成本降低,在更短的时间内赋予数字人独特的外貌、性格、特长,还能够将其在专属领域进行内容创作的能力作为内容生产工具帮助企业降本增效。

数字人与大模型的结合,突破了此前的应用边界。例如虚拟员工、智能客服:可完成业务咨询、资讯推送、服务引导、事项办理等政务服务;政策导读和宣传数字人:以生动形象的方式向公众传达政策内容和精神等;医疗健康数字人,可服务患者实现医疗问答互动,并根据病情特征反馈,引导患者线上挂号和在线问诊。

盘古大脑,如何为数字人注入灵魂

并不是所有的数字人都是AI数字人,根据咨询机构IDC的分级,目前数字人多处在L1-L3阶段,L1-L3阶段的数字人生产包括简单的人物形象,依赖外部设备采集人体特征信息,再到依靠算法驱动肢体动作等等,L3阶段也只限于文本和图片的简单交互方式。

L4-L5阶段即实现AI驱动,由数字人自主进行决策以及执行任务,同时在交互方式上也有新的突破,实现流畅的多模态实时交互,目前数字人行业中极少有公司能够实现。

如前所述,数字人是多种前沿科技的集大成者,这就要求数字人厂商具备将技术融会贯通的能力,以及具备在应用场景中兑现技术价值的行业认知,华为云盘古大脑因此而来。

盘古大脑可通过语音识别、自然语言理解、机器学习等人工智能技术,使机器理解人类语言并与人类进行有效沟通,进而根据对人类语言中的意图进行理解并执行相应任务或做出回答的系统。

智能对话系统可赋能于多种企业服务场景,以文本机器人、语音机器人、多模态数字人、智能质检和坐席辅助等对话机器人产品形式服务于客服、营销、企业信息服务等场景。

AI数字人不是数字人和大模型的简单组合,实则是核心业务系统的全面重构。

例如对话中控,通过对话中控实现多轮问答理解和识别,实现问题分发到大模型任务问答、Agent问答和知识增强问答;基于知识树追问,可以基于从用户文档&知识提炼挖掘或者用户自构建的知识树实现主动多轮追问;大模型任务问答,识别用户意图后,通过大模型实现知识提取并智能生成追问,提取完整后执行业务API。简单任务一般采用任务问答,准确率高,比如差旅、订票等。

再如大模型Agent问答,基于插件召回、Agent-LLM动态规划实现Agent问答,复杂任务采用Agent问答,灵活性好,可根据客户和市场情况分析投资策略;知识增强问答,基于大模型实现多元异构的知识增强问答,知识包括文档、网页、图谱、多模态等。

当大模型为数字人“启智”,数字人最大的进化不在外表,而在于灵魂,而要支撑数字人的灵魂,需要一系列新的技术要素,互相碰撞交织以适应新的数字人形态,由此盘古大脑得以为数字人注入灵魂。

新数字人,落地产业

从文本、语音到多模态机器人,大模型加持的智能对话系统,以数字人的形态形式与用户沟通,提供智能化、高效化的交互服务,新数字人已经落地于复杂的产业场景。

城市推介是城市对外的窗口,城市智能推介数字可通过智能对话交互,向企业/市民介绍城市概况以及各种政策,方便用户快速了解政务办事等。在城市推介过程中,真人讲解员会面临忘词的情况,也可能无法面面俱到,不清楚最新的政策。

数字人可以保证稳定、全面的讲解,背靠海量的知识库,容纳所有城市推介相关讯息,给出贴切的回答。同时,数字讲解员的互动能力更强,可以结合大屏交互,以更好的形式去呈现结果。

再如某城管局,基于华为云数字人智能播报平台打造政策法规宣传自动化流水线,媲美真人的形象克隆、真假难分的声音克隆,分钟级形象渲染和视频推理,以及大模型赋能的文案生成、文案优化能力,通过简单的操作,高效率、高质量的输出政策讲解宣传视频。

值得一提的是,新技术不仅要创造新场景,也要与原有的业务产生联系,华为云和云迪、中数通等伙伴携手集成智慧城管系统,将垃圾分类、园林绿化、土地管理、水务管理、交通管理等城市管理法规收归一心,实现了跨系统的协同,进一步拓宽了技术的边界。

由此也可看出,华为云在云计算、大数据和人工智能等技术层面,布局许久且积累了充足的实践经验,汇聚成为数字人生长的养料。

以盘古大模型为例,盘古大模型5.0在全系列、多模态、强思维三个方面带来全新升级,不同参数规格的模型,以适配不同的业务场景,多模态能力能够更好更精准地理解物理世界,同时盘古大模型将思维链技术与策略搜索深度结合,极大地提升了数学能力、复杂任务规划能力以及工具调用能力。

数字人和大模型等新技术,都需要在合适的场景下发挥价值,当技术和场景的需求愈发复杂,单一技术无法解决问题,华为云盘古大脑既可以将多种技术协同组合,也可与合作伙伴为场景找到合适的解决方案,让新技术快速融入到业务深处,在产业中发挥更大价值。

0 阅读:0

TechForWhat

简介:数字时代,技术当立。关注行业数字化转型实践与案例。