最近一段时间,AI圈最火热的概念显然非MCP(模型上下文协议)莫属,在抖音、微博、知乎、小红书等社交平台中,几乎只要谈及AI的内容都必然会提及MCP。事实上,MCP是AI独角兽企业Anthropic在去年11月提出的开源协议,旨在为AI模型与外部工具和服务之间的交互提供标准化接口,用于在大模型和数据源之间建立安全双向的链接。
在4月9日举行的阿里云AI势能大会上,阿里方面就宣布将全面支持MCP。再算上已经在地图业务支持MCP的百度和腾讯,这一轮国内大厂的反应速度毫不逊色于海外市场。不仅如此,同样是在4月9日,谷歌方面也宣布推出自己的智能体交互协议Agent2Agent(A2A),允许生态系统中的智能体进行与底层技术无关的相互操作。
那么问题就来了,为什么现在AI行业会如此关心智能体与外界的交互能力呢?答案其实很简单,因为整个业界都迫切地希望智能体能变得有用,并真切地让用户感受到使用智能体会获得效率的提升。尽管在过去一年多的时间里,AI厂商的智能体一个接着一个亮相,但它们的表现都差强人意,即使是OpenAI最新的Operator也不例外。
AI业界定义的智能体,指的是能够自主感知环境、并采取行动,实现目标的智能实体,为了实现这一目标,智能体底层的AI模型就需要能够自如灵活地操作所有软件。可现实是,AI模型只能在自己的一亩三分地里做到如臂指使,难以调动第三方的软件或者服务。
简单来说,此前智能体其实是遇到了“语言不通”的问题,第三方工具听不懂智能体的要求,自然也就无法接受相关指令。为了让智能体具备能动性,Anthropic方面就推出了一项名为“Computer Use”的功能,让自家的Claude模型能够像人类一样操作电脑。
Computer Use所采取的是绕过API接口这一模式,它是基于视觉模型来解析屏幕上的元素,并模拟人类用户来实现对第三方软件的操作。作为一个过渡性质的技术路线,Computer Use让AI去模仿人类的语言与数字世界的交互方式,而非使用更类似于利用计算机“母语”的二进制代码,所以它也只是一个“曲线救国”的方案。
由于Computer Use路线是模仿人类与计算机的交互,所以必然就会带来更长的任务执行时间,而更长的任务执行时间则代表更多token的消耗。简而言之,Computer Use的成本其实更加高昂,这也是为什么Anthropic在提出MCP后,短时间内整个AI行业都选择了接受。
MCP其实就相当于是AI模型的USB接口。正如USB提供了一种将外围设备连接到计算机的标准化方式一样,MCP同样也带来了一种将AI模型连接到各种数据源、工具的标准接口,解决了AI模型因为互联网生态孤岛化、而无法充分发挥实力的问题。也就是说开发者只需搭建一个MCP服务器,就可以让智能体访问所有支持MCP的数据源或工具。
在MCP问世之前,智能体要想与利用外部工具,就需要开发者为该工具手动编写调用API的代码。而MCP实现链接万物的核心则是标准化的函数调用(Function Calling),通过能力协商、能力发现、订阅/通知等一系列能力,让AI模型知道有哪些工具、哪些数据是可用的,以及如何使用这些资源。
所以如果一定要有一个AI操作系统出现,那么MCP无疑是最有资格的候选者。因为它不仅开源,而且还具备低门槛、跨平台和安全性高的特质。
比如国内市场率先集成MCP的百度智能云千帆大模型平台,就提供了基于千帆AppBuilder SDK开发的组件可无缝转化为MCP Server模式。也就是说,如果开发者想要构建一个地图导航的AI应用,就可以通过千帆AppBuilder调用百度地图Python MCP Tool,来为用户提供实时出行规划、地点问询、天气查询等功能。
既然已经有了MCP,谷歌为何要再推出一个A2A呢,难道这不是重复造轮子吗?实际上谷歌并没有重复造轮子,反而是通过MCP的成功洞察到了新的机会。相比MCP主要解决的是智能体与工具的交互,A2A则是能够实现智能体与智能体的交互,让智能体之间能像人与人交流一样,传递意图、共享信息,并完成任务,更像是AI业界的“HTTP协议”。
用游戏玩家更熟悉的方式来解释,就是MCP是单机游戏、A2A则是网络游戏。MCP可以让一个智能体使用不同的工具和数据来完成任务,使得智能体不再“巧妇难为无米之炊”,可以说是解决了外部问题,这时候智能体本身的性能就决定了任务的效果。显而易见,除非通用人工智能落地,否则单一的智能体单打独斗显然不如多个智能体协同工作。
总而言之,随着MCP逐渐铺开,以及A2A的落地,智能体之年才真正变得名副其实,接下来我们大概率会看到AI应用再一次井喷。只不过这一次涌现的AI应用相比于以往,极有可能会更有实用价值。