文/王吉伟
智能体的爆发,意味着大语言模型的快速落地与应用。所以它一经提出便如泄洪之水一发而不可收,直至现在如火如荼。
尤其是在智能体工作流(Agentic Workflow)的加持下,智能体表现出了更强的易用性和适应性。除了解决简单工作流的自动化,也在积极融合进入更多的传统业务流程和应用场景。
王吉伟频道在《Agentic Workflow新范式,基于大语言模型的工作流、业务流程、智能体大融合》一文中提到过,广义上的Agentic Workflow是包含传统软件(工具、解决方案)、大语言模型、AI Agent等在内的新型业务流程的集合,其中用RPA等超自动化工具将轻量化LLM工作流与传统工作流相连接的工作流,将会成为企业业务流程的重要形式。
当前的AI Agent构建平台所构建的AI Agent通过各种插件和工作流已经可以做到较长的流程,但仍然无法操作没有API接口和没有开放API的大型以及遗留的企业级应用程序,并且API接口也不能保障绝对的稳定。
因此在智能体的应用上,用RPA来连接多种应用系统以保障数据的流通是不可或缺的,这对于已将RPA应用于企业运营人机交互层的组织来说则更加重要。
在企业级智能体的解决方案上,基于RPA构建的或者以RPA为tools的RPA Agent越发受到广大组织重视,原因正是它能够弥补单纯的API类智能体的不足,可以通过“API+UI”双重自动化极大提升智能体的应用潜力。RPA已经成为智能体的重要技术,也是实现基于LLM的智能自动化的必要技术之一。
从去年LLM爆发以来,RPA\超自动化厂商们也都在持续进化,完成了RPA Agent的产品化进阶。那么它们进化到什么程度了?在王吉伟频道写这个选题期间,恰好实在智能发布了最新产品实在Agent 7.0。这篇文章,我们就以这款产品为例,透视国产RPA Agent产品的发展情况。
先来看两个例子
在详细介绍实在Agent之前,先来看几个实际操作案例。
案例1:采集豆瓣新片排行榜发送给同事
这是一个娱乐类的案例。如果你想为同事推荐最新的十部电影,过去需要打开豆瓣电影的新品排行榜,逐个复制电影名称,通过微信或者钉钉发送给朋友。现在使用实在Agent,只需要打开软件,输入 「采集豆瓣电影片排行榜前十(电影名、评分)」,它就能自动分析你的需求并拆解成执行步骤,然后点一下 执行 ,它就会自动采集相关数据并把数据填入到钉钉,发送给你的同事。
案例2:在腾讯文档制做年终汇报幻灯片
这是一个办公应用的案例。按照正常步骤操作这个业务流程,需要打开腾讯文档,搜索相关文档,再制作成PPT。使用实在Agent智能体,只需要告诉它 「明天要去汇报,去腾讯文档里做一个叫年中汇报的幻灯片 」,它就会把你的需求拆解成相应的执行步骤,然后点击 执行 按钮,几分钟后就能在腾讯文档走出一个幻灯片。
除了这两个案例,实在智能还给王吉伟频道展示了获取百度贴吧前10个热门贴吧相关信息、京东关注商品降价通知发送、京东购物车商品结算等案例。
王吉伟频道还实际测试了12306查询车次、给微信好友添加标签及发送信息等应用案例,都能一一完成。实在Agent智能体预制了很多代表性案例,感兴趣的朋友可以亲自尝试。
据悉,目前实在Agent已经能够对钉钉、微信、企业微信等集成办公软件进行精确操作,并能通过屏幕识别技术对淘宝、京东、携程及12306等网站进行精确识别。
实在智能正在对更多的软件系统进行适配,以后大家需要操作的工作、生活及学习等业务流程,都能通过使用自然语言与实在Agent智能体交流实现相应业务流程的自动化,且这些Agent流程都是可以复用的,一次创建多次使用。
实在Agent 7.0.0有什么特点?
以上两个实操案例,来自于实在Agent 7.0。新版Agent 7.0具备以下几个特点:
自然对话交互:“All in One”式助理工作体验;意图理解、流程规划:更为强大的意图理解+流程精准拆解规划能力;多代产品能力集成:实现一代RPA、二代IPA数字员工元素拾取、组件、流程编排等全部能力集成;软件界面精准操作:Agent多模态屏幕语义理解,屏幕扫描识别,界面精准操作;实在智能千亿参数训练的底层TRAS大模型也再次进化,训练参数量更大,支持自然语言沟通工作、科普知识,高效执行任务完成工作,对话工作两不误。
在智能问答方面,基于实在智能文档系统(IDP),能够给实现文件的精确问答及处理。
此外,该公司已经继续深入探索企业大模型、数字员工运营管理平台、RAG和Agentic Workflow等技术和产品整合研究,实在智能创始人孙林君曾在2024年世界人工智能大会上提到“企业大脑”解决方案。
目前它们正在逐步推出企业知识库定制训练服务,通过RAG让Agent能够回答企业内部专属的知识内容和流程内容,让知识和流程资产创新价值。
之所以能做到这些,在于其对于技术和产品研发的执着,并且产研投入量极大。此次版本大更新花费近一年时间,深入更新迭代了底层较多技术架构、功能架构、RPA组件等。
实在智能在RPA有6年技术沉淀,在AI有6年能力、人才等的积累,多年的技术沉淀、对市场需求的准确把握以及对技术走向的前瞻性预判,使得他们能够在LLM与AI Agent爆发之后先一步扛起RPA Agent的行业大旗。
作为国内首家发布明确意义上的AI Agent智能体的公司,实在智能的系列产品已经先一步实现依据个人诉求生成工作流程、识别工作环境(浏览器、网页、通讯软件、工作软件等)、自主执行任务及流程,在保证智能体能够在B端为广大组织提供企业级服务的同时,也用标准化、易用化的产品进入C端市场服务更多个人用户。
与Coze等Agent平台有什么区别?
看了上面两个案例,是不是感觉使用实在Agent超级简单?
没错,使用实在Agent智能体的全部流程仅是 「输入需求-点击执行-收到结果」 这么简单,完全不用考虑其他操作,实现了软件使用上的端到端。理论上,随着软件的不断迭代,这种端到端的方式可以做到任何业务流程的自动化创建和自动化执行。
提及智能体,目前大家更熟悉的可能是Coze、Dify、GPTs等平台上用户所创建的各种智能体。从上面的案例大家应该能够体会到,实在Agent与它们最大的区别是在智能体构建上几乎不需要人为参与(流程中断时需要人为干预),都由实在Agent自行完成。
其他平台的Agent构建方式是:人力构建智能体,智能体自动化执行任务。实在Agent的构建方式则是:自动化构建智能体,智能体自动化执行任务。这种方式,实现了从构建到执行的全自动化。
所以,在使用实在Agent智能体时,用户不用再像在Coze等平台一样通过输入提示词、选择插件、搭建工作流等操作去构建一个智能体,极大地节省了用户构建应用的时间(自动化构建可以让用户忙其他事情),并进一步降低了智能体的构建门槛,真正实现了一句话构建智能体,所想即所得。
此外,想要在智能体平台构建能够深度操作钉钉、微信等智能体,没有相应的API接口是无法实现的,且平台生态之间的API还存在着一定的连接安全性、限制性等问题,通过RPA模仿人类操作的形式则完成杜绝了此类问题的发生。
端到端这个术语经常应用于B端企业级技术解决方案,主要强调技术、方案、流程及系统的完整性,也更强调产品应用的易用性和广泛性。
实在智能的端到端,一方面可以理解为从B端到C端。因为实在智能要做的,不仅是能在B端为企业提供专业级的Agent数字员工解决方案,更要在C端为个人用户带来解决长尾低频自动化需求的智能助理。从全新的实在Agent 7.0来看,他们做到了。
另一方面,还可以理解为C端的技术实现。实在Agent把“端到端”的技术特点和便捷特性赋予了智能体的C端构建与应用,把“RPA人人可用”的愿景进一步拓展为”Agent人人可用”。在LLM的加持下,这个愿景将会快速变为现实。
2023年8月,随着实在Agent智能体的面世,实在智能成为国内首家发布AI Agent智能体的AI科技公司。2024年8月,实在Agent 7.0发布后,实在智能再次成为RPA业界首家推出Agent产品形态的AI科技企业。
而这个进程,仅用了1年。
【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与AI Agent,欢迎关注与交流。】
全文完