对话钉钉:AIAgent的机会在哪?

TechForWhat 2024-05-10 19:02:56

作者  |  万泉河编辑  |  葛覃

大模型宛如月光遥遥,可望而不可得,AI Agent被视作让大模型效用最大化的媒介,先有OpenAI打样,GPTs想打造成AI领域的Apple store,此后国内外不少厂商也先后发布了开发AI智能体的工具和平台。

熙熙攘攘,仿佛AI Agent遍地都是,但AI Agent最适合的场景到底是什么?最需要AI Agent的群体是哪些?目前来看,“GPTs”等还没有想清楚。

GPTs从一开始300万个AI Agent的顷刻间建立,到三个月后的活跃用户数锐减50%。“同质化严重”“简单的角色扮演”“僵尸号”等负面标签接踵而至,暴露出目前AI Agent市场缺乏用户需求和场景等问题。其他AI Agent开发平台也或多或少有类似的问题。

2024年红杉资本的人工智能峰会上,吴恩达在演讲中提出了Agent的四种主要能力——反思(Reflection)、使用工具(Tool use)、规划(Planning)以及多智能体协同(Multi-Agent collaboration),并强调了AI Agent工作流的重要性,预测它将成为未来的重要趋势。

相比于C端消费者,B端用户会面临更复杂的业务需求,也有更明确的场景、更丰富的数据,非常适配Agent的各类特点。

另外,结合GPTs的热度褪去和吴恩达的演讲,AI Agent在B端发展也不能是在空中盖高楼,它需要孵化的土壤,需要一个既能介入客户工作流,同时有许多垂直行业数据的平台,这个平台自身最好还具有适配的大模型。

答案呼之欲出。

不久前,钉钉给出了他的回答。4月18日,钉钉上线了AI助理市场,也可以理解为AI Agent应用商店,精挑细选地上架了200+AI助理,主要聚焦在B端市场,如学习教育、职场办公、财税法务等,类型可分为简单角色AI助理、专业领域AI助理、多任务处理AI助理、跨应用AI助理四大类。

“行动能力,是钉钉AI区别于单纯内容创作、问答类AI的核心差异。具备行动力后,AI助理能与各类应用打通,提供场景化的智能服务,真正走入到应用、协作、经营等场景中。”钉钉AI助理负责人子推表示。

伴随市场上线,钉钉也对AI助理的行动系统进行了升级,已支持拟人操作、工作流、自定义能力三种开发方式,让AI与应用的连接更简单。

关于钉钉AI助理市场的创作历程、细节思路及AI Agent未来的发展方向,TechForWhat近期对话了钉钉AI产品负责人子推。

以下为对话实录,略经编辑:

钉钉智能化,思考与实践

TechForWhat:钉钉全面智能化,有哪些重要的事件节点?

子推:这一年钉钉AI产品经历了从“+AI到AI+”的过程。首先是前几个月,在去年“418”的时候,钉钉接入通义千问,把钉钉自身的场景进行改造,像IM,音视频、闪会、代办日程这些全面的接入AI,利用AI的特性对产品本身的功能、体验进行升级。

在八月份的时候我们发现,只把钉钉原生的场景满足是不够的,因为我们有非常多垂直领域的客户和产品,除了AI协同能力的加持之外,还有很多业务场景的需求。

一方面来自于我们对AI本身的长期规划和看到的一些方向路径,一方面来自客户需求,所以结合钉钉本身的平台战略和开放战略,加上我们对生态的一些洞察,开始尝试去做基于钉钉底座开放能力PaaS基础上延展的AI PaaS。

那时就开始思考如何把钉钉AI底座做的更开放,结合钉钉本身的差异特性,去赋能我们的客户,我们的生态,和我们更多的开发者,让他们能够去构建更丰富的AI产品。

到今年一月份钉钉AI助理上线,可以看到基于智能体的构建,低代码的、全代码的,包括钉钉一些能力的加持,四月中旬钉钉AI助理市场正式上线。

TechForWhat:对于AI助理怎么做,钉钉是怎么想的?

子推:AI在产业上的变化非常快,从copilot到Agent这么大的一个升级,其实过渡也就两三个月的时间。

我们对于方向有比较笃定的认知,比如说讲到Agent这个概念,因为钉钉早期的时候已经有Chatbot群机器人,而且钉钉天然又具备着通讯录和协同的网络逻辑。最早在去年5月份的时候,我们就开始试点,看能不能把AI跟Chatbot结合起来,让AI像人一样在群里协同。

这是一个持续延展的过程,但我们确实是有一个延续性的思路,包括底座的开放,钉钉的哪些核心能力能够加持AI等,这是想得比较清楚的。

TechForWhat:我们现在处在AI Agent的极早期么

子推:对,非常早期。我们开玩笑说,可能休假两周回来之后,AI又不知道变化成什么情况,但是作为平台,必须回归到用户需求的满足,基于AI场景能够产生什么新的价值。

TechForWhat:目前对AI助理的期待也有两种看法,一种是过高,一种是过低,钉钉怎么看?

子推:我们自己长期乐观,短期严肃对待。举个例子,我们认为AI产品形态应该有多种形态,而Agent是其中一种。现在绝大部分的Agent平台是中心化的,就是当用户有需求的时候再去使用,比如我今天有个发言演讲稿,才有意识打开去用。

我们能想到的更多场景是,能不能把AI功能集成到钉钉原本最高频的链路中。比如点开一个群聊,里面有99条未读,我可以呼起一个Agent总结一下。

钉钉更应该去思考怎么把AI本身的能力结合到我们高频的场景里,让用户潜移默化地去用,最好的体验是让用户感知到不是为了AI用AI,而是就集成在我的场景。我们自己把AI分成三种形态:AI inside、AI Copilot和AI Agent,钉钉这三种形态都有,而且这三种形态都在大力发展。

TechForWhat:这三种形态的未来会有一个主次之分吗?

子推:长期来看,我认为应该都会走到Agent形态去,因为随着智能体能力越来越强,应用概念可能都会越来越弱,我自己的看法是这样。

协同场景,钉钉AI助理的差异化

TechForWhat:最早一批的AI助理都是钉钉自己做的?

子推:对,最早一批主要还是围绕着钉钉的核心场景打造的,比如说人事的、行政的、差旅的,和我们一些核心的生态伙伴去构建的一些助理。

TechForWhat:现在大家制作的AI助理是否相似度太高,平台是否同质化?

子推:从构建智能体的平台本身来说,我觉得基础能力基本会趋同。

在整个Agent的大框架里面,差异化体现在什么地方呢?

第一,Agent跟平台本身的特性能不能得到很好的结合,能让平台的差异化的能力贴合到Agent本身里。比如知识库,绝大部分的助理创建平台,知识库其实是用户上传的本地的文件为主,它是个静态的文件。

钉钉的知识库可以关联钉钉的在线文档,比如有个客服场景,那我们就可以让客服场景的“小二”,在源源不断的知识库更新基础上,去做动态知识库客服的答疑。

第二,现在的AI产品大多数以AIGC为主,就是生产内容,我给它一个prompt的指令,立一个人设,灌输它一些知识,让它生产内容,但钉钉的AI会跟协同场景强相关,相当于我们给聪明的大脑上安装上了灵活的手和脚,我们在行动能力上做了三层的加强。

首先,把钉钉所有的协同能力都开放,比如说日程、待办、新建文档、转发消息,让AI具备更多的行动能力。

其次,我们引入了钉钉的工作流,AI在很多场景上有自主的思考和发散,在To B这种确定性的场景上,企业里面需要更确定的东西,无论是AI的工作流程还是人的工作流程,把钉钉的编排能力加入进去之后,就可以基于钉钉的场景做场景式的编排,而且能把钉钉的应用同步起来。

最后是RPA,RPA也很有意思,绝大多数传统企业的网站也好,应用也好,其实很多是没有开放接口的,我们前面讲的AI PaaS需要应用本身具备开放能力,但是比如说制造业有很多传统的应用,没有开放接口能力怎么办?

过往RPA很多都是基于规则,今天AI多了一层理解能力之后,就可以基于一些场景,自主去理解成一些新的参数,通过RPA可以让AI学一遍,怎么在屏幕上操作,哪些地方是有变量,哪些地方要输入,可以让AI跟老旧应用关联起来,就可以快速让更多应用进行智能化改造。

钉钉本身是个协同办公平台,上面有这么多的应用,怎么跟AI做更强的结合,我觉得这也是一个很大的差异化。

我认为,未来各个平台在AI本身能力和结构大致相同的情况下,会基于平台的特性,叠加非常多的差异化能力、商业模式,匹配他们对应的用户群体,匹配他们对应的场景需求,这些是未来不同平台PK的重点。

TechForWhat:有种先天基因会决定后期发展方向的感觉,百花齐放而不是完全同质化。

子推:没错。因为我们把AI看作是基础设施层,之前听播客听到有老师分享的观点我很认可,AI是蒸汽机,但是蒸汽机运用到生产过程中,还需要配套的基础设施建设,比如说曲轴连杆,因为有了曲轴连杆才会有了火车、轮船,有了火车、轮船才有了货运服务,一层一层往上满足用户的需求。我们目前在做的可能就是曲轴连杆和火车这一层。

AI助理,待解决的问题

TechForWhat:普通人做的AI助理不好用,不想用,这种问题怎么解决呢?

子推:我们认为,当这个工具越来越普及,成本越来越低的时候,我们就进入一个全民创作的时代。全民创作的时代,产品非常细分或者场景非常小,在一个小的产品上叠加一个大的人群,可能迸发出不同的火花。

对于今天的平台来说,很难界定哪些产品好或者哪些产品不好,我们只能说哪些场景符合哪些人群。在平台上思考分发和激励,如何让优质创作者能够通过他自身对于特定人群和特定需求的洞察,去构建出他喜欢的产品并且能从中获益,这是所有市场构建的一个核心逻辑。只要你创造的东西能够分发到用户手上,并且有用户愿意为此买单,它就是有价值的。

大家都在早期的探索阶段,特别是商业模式,但是我们今天也看到,只要人群场景贴合,在某个点上一定能超出预期。现在没有看到To B领域非常大的爆款,未来To B能不能产生千万级的应用场景,目前我们没有看到,因为To B的场景太零散了,而且每个行业完全不一样。

比如昨天有个政府客户过来,讲了公文场景里有一个非常垂直的功能,我们都不太听得懂,但对他来说是非常重要的需求,那我觉得未来一定会有在这个场景有深度沉淀的创作者,可以给他提供好的创作平台工具去构建AI产品并帮助创作者成功,这是我们乐意看到的。

TechForWhat:哪些人现在开始觉得AI Agent不是玩具,有在频繁的使用?

子推:我们目前看到有几类客户使用Agent比较深。第一是中大企业CIO的团队,基于他们对于AI的理解,和比较明确的用户需求,会做得比较好,但是这和他业务场景集成的比较深,比如客服、新人培训、知识库的检索加回答、行政类目的答疑,又比如数据分析和业务洞察相关场景,有很多企业在做类似的实践。过往一个企业要做数据分析报表难度很高,首先要有数据池,企业需要清洗非常非常多的数据,很多数据只为老板服务,没有这么多的BI分析师和ETL开发者能做出符合每个人想看的报表。

而用了AI之后,只要基于权限设计跟业务系统打通,就可以做到一些数据的储备,并进一步实现数据分析,目前我们看到很多零售行业、生产行业的企业都有在用。

还有一些接触新技术并有比较强动手能力的比如高校创作者等,他们对于场景有洞察,愿意动手实践。他们做的场景,如果站在业内角度来看,可能技术深度不足,但他们对于场景有一些差异化的洞察,也有一些自己差异化的知识等,做出来的助理还挺有意思的。

有一个心理学的老师,他过往沉淀了非常非常多的心理案例,他就把这些知识和他自己的一些实践整理起来,变成一个知识库上到AI助理,让这个AI助理能够帮他做一些心理咨询的检查。虽然他只是用知识库的能力,但是他过往的知识沉淀可以赋能到AI助理做一些心理知识的解答,钉钉上有非常非常多的教育工作者和学生,这也是挺有价值的。

TechForWhat:就像做大模型考虑ROI一样,做AI助理也得考虑ROI,你怎么考虑AI助理的ROI这件事情?

子推:业内团队特别是创业公司讨论ROI的非常多,钉钉自己定义智能化的目标叫有价值的规模或者有商业的规模,核心还是不能为了场景而去做场景,或者说我们为了规模而去做AI本身的覆盖量。

AI产品跟其他互联网产有区别,其他互联网产品是随着用户基数的放大,平台效应可以放大,成本会越来越低。但当下,AI产品是用户变大,成本也越来越高,反而让我们去思考,怎么能把这个产品或者叫商业循环跑起来。

今天我们再去设计商业模式的时候,非常希望走出正循环的路径,创作者能够获得收益,用户愿意为此买单,且平台能够分摊对应的成本,获得收益。大家都在做这样的尝试,我觉得商业模式是必须从第一天就要考虑的。

TechForWhat:基础模型能力还会进一步提高,现在大家都在搞万亿参数,模型能力的提升会在一定程度上把原来在Agent的一些能力覆盖掉,钉钉怎么看?

子推:从去年到现在,我们也观察到有很多做中间层的公司,要么被应用这一层挤压,要么被模型这一层挤压,因为现在大家不知道模型的边界到底在哪,它很有可能把很多东西都做掉,或者是说我们现在做的很多事情都在一个过渡阶段,比如说今天我们在工程上要做很多优化,未来模型可能连这个东西都可以干掉,是有可能的。

钉钉比较乐观,钉钉本身不是个模型公司,是个平台级的应用公司,所以模型能力越强,本质上对我们本身加持会越好,我们能够创造的可能性会越高,而且我们可能在工程上投入越少。这是钉钉平台独有的,场景、客户、数据、协作能力等等,这些肯定是大模型本身不具备的。

所以我们一直都在想能力怎么跟模型再结合一下,比如最近比较火的多模态,视频的多模态怎么跟文档创作、直播、音视频再结合起来,这就是新的想象空间在,我们乐于见到模型本身能力持续的提升。

0 阅读:8

TechForWhat

简介:数字时代,技术当立。关注行业数字化转型实践与案例。