扣子空间上手体验:一个会主动跟你「对齐」的AI实习生

爱范儿 2025-04-21 12:12:04

Agent(智能体)和 MCP(模型上下文协议)是 2025 上半年 AI 领域最热门的趋势。

前几天字节的 Agent 产品「扣子空间」,也正式开启了内测。

在人山人海的 agent 产品中,扣子空间第一次提供了「规划模式」——能够和用户分步协作,在关键步骤节点暂停确认、允许用户实时修正路线的 agent 能力。

扣子团队官方认为,人和 agent 协作起来,将会是一种更加丝滑的工作模式。

扣子空间内测申请

官方网站

爱范儿也第一时间拿到扣子空间邀请码,试跑了一些脑洞微开的任务。

我们扮演了 「老师好我叫何同学」 的公关负责人,要求实习生扣子对近期舆情事件进行分析,生成舆情报告,进一步给出对策建议,然后再撰写一份回应声明:

Prompt: 我是‘老师好我叫何同学’团队的公关负责人。近期我们的品牌遭遇了舆情事故,请你搜集资料,评估该事件的影响程度,了解网友的吐槽内容,从中分析提炼出网友认为我们所犯的错误以及改进方向。你可以利用你认为合适的网站和互联网平台来搜索资料。然后,为我生成一份舆情报告,全面展示此次舆情事故的时间线、发展脉络、网友反应与吐槽,以及应对策略。这份报告需要做得深入一点,特别是在应对策略方面要提供多种不同的角度。此外,我还需要你依据应对策略,生成一篇态度诚恳、不逃避责任且改进措施切实可行的回应声明。你需要把舆情报告生成一个网页和一个 pdf 文件,把回应声明生成为常规文档。

这个任务看起来比较简单,主要动作是搜索和文本生成,但同时对报告制作者的舆情分析的专业知识,以及将媒体报道和社媒贴文提炼、格式化成严肃报告的文稿能力,要求都不低——这些,都是一个 agent 产品在大模型方面的能力。

除了大模型能力之外,在 browser/computer use、代码、MCP 等能力上,这个任务也能让扣子空间「小试牛刀」。

和工作水准。这是第一次生成的舆情报告的数据分析部分:

这是 AI 实习生编写的应对策略:

作为「初稿」,这次交付无论从舆情报告的详实程度,逻辑拆解,分析的专业性,还是回应声明的格式上,都算是达标了。具体细节不一定适用于真实场景,但至少生成结果提供了可以用于下一步行动的指导方向。

值得注意的是,由于输入任务时提到了「时间线」的概念,生成的结果似乎把更多篇幅提到了「开源项目抄袭」、「会自己打字的键盘」等前序事件上。而这并非我们的任务意图。

显然,在工作场合中,同事之间目标对齐还是很重要的。

我们正好可以通过扣子空间的规划模式,来与这个 AI 实习生对齐:

经过对齐后,不仅内容目标正确,还可以看到舆情报告的数据部分直接把粉丝量、「三连率」、完播率的对比展示了出来,数据的说明力和代表性有所增强:

你也可以访问这个链接查看任务完整回放。

停下来、慢一点:AI 工作搭子要学会自己「对齐」

从爱范儿的测试结果来看,扣子空间和传统智能体/MCP 产品最大的不同之处,就在于这个能够「停下来、慢一点」的规划模式。

简单来说,交给 MCP 一个任务之后,它会自动分解任务指定规划然后开始跑任务,最终生成结果。但这难免出现「一步错,步步错」的情况。

而扣子空间开启规划模式后,可以在执行复杂任务的关键节点上「停下脚步」和用户对齐,让用户可以实时纠错和纠偏,优化执行逻辑。

这种方式尤为适合不具备提示工程能力的小白用户。第一次提交任务的时候,简单扼要表达你的意图就行了。

「规划模式」的触发条件有两种:

一种是 agent 出于各种原因(比如查不到相关资料,或者不能准确理解用户的意图),导致无法完成当前步骤,或者结果的置信度不够高——它会自己停下来。当任务暂停时,扣子空间会弹出通知,提醒用户进行下一步操作。 另一种是用户可以主动按下「暂停键」:智能体的分步执行任务过程中,会把分步结果写成 .md 文档,用于构建知识库和辅助下一步执行。扣子空间也是如此,用户如果发现分步文档有误或者偏差,就可以自己暂停修正。

这种协作式的智能体工作流程,使得智能体避免因为「一上来就分析错了」,以及思考和 token 不断输出中产生的幻觉等各种原因,导致偏离既定目标。

可以这么理解:如果说传统大模型/智能体是「自动驾驶」,那么扣子空间其实是让用户来扮演 AI 的「copilot」(副驾驶)。用户一旦发觉偏离,可以立刻踩一脚刹车,手动扶正方向盘。

如果换成实习生的比喻,扣子空间就是一个能够做到「不懂随时问」,然后依据即时反馈来灵活调整工作方向的 AI 实习生。

实际上还不止一个 AI 实习生,而是可以有很多个:

对于常规型任务,比如文本处理、制图制表、简单分析等,扣子空间自己就是一个通用实习生,算是一个能力比较全面,但不强调专深领域的「小六边形战士」; 至于深度专业领域的任务,比如用户调研、金融行研等,就需要「领域专家」智能体出面了。

无论是通用型还是专家型智能体,都通过「扣子空间」来一站式调度。

不仅如此,如果现有的专家型智能体还不够用,开发者也可以充分利用扣子团队同步推出的扣子开发平台(零基础开发智能体)、扣子罗盘(智能体 DevOps 调优工具)、Eino(Go 语言智能体开发框架),来快速开发并上架自己的专家 Agent。

AI 实习生,终于长脑子了

当然,在爱范儿的大部分测试中,扣子空间都能比较准确地理解意图,生成优质的结果。

最近关税战十分热闹,我们也让它来试试这个难题:跟踪美国在主要对华进口品类上的关税水平。

Prompt: 近期美国政府关税政策一天一变,我需要你制作一个能够实时更新的在线表格,来追踪自从 4 月1 号以来关税变化。你需要追踪中国向美国出口的最主要产品的税率,比如消费电子设备、针管、玩具等等,具体有哪些产品你自己去查,查不出来就随时停下来问我。注意有一些关税类别是近期新增的,但一些关税类别是在 2025 年以前就有的,你需要在表格中体现不同关税类别是如何叠加的,不明白随时问我。

先来看一下生成的结果:

爱范儿观察了一下思考过程,发现它对于「关税」这样的复杂概念已经有充分的理解,而这和可能和背后所使用的大模型有关。

最近一个多月里我们其实用过很多智能体/MCP 类工具,特别是有些具备 deep research 能力,标榜能够代替用户执行复杂任务的产品——处理相同的任务时,却需要做数十轮搜索,似乎很用力地在理解用户到底在说什么,给人一种用力过猛的感觉,结果却也并不理想。

扣子空间总共只进行了六轮思考,其中只有四轮真正用来搜索和了解关税种类(剩下的两轮分别是任务开始的规划分配,以及任务结尾的网页生成。)

生成的结果,从视觉观感上还是很有说服力的。

而且能看出来这个 AI 实习生并不是指哪打哪,而是多少动了点脑子,做了一些并不在初始任务要求内,但它认为会有帮助的数据分析。比如列出了今年以来关税增减的时间线:

做了短中长期分别的影响分析:

还有图表与文字结合,结构化的呈现方式:

以及最让我惊艳之处:它把 25 年前基准、「自由日」、「对等」等不同关税名目的区别和叠加情况,给抓住了。

但错误也非常容易发现,比如大部分类别里的税率完全算错了。至于错误的原因,我的理解是这个实习生采用纯搜索新闻的方式,容易被错误和不及时的信息带偏,而非直接到美国政府网站抓取数据。

当然,就算是真人实习生,恐怕也会这么干。进出口从业人士以及关税方面专家才知道获取最及时、准确数值的方法,这个任务需要的专业知识和经验远超实习生水平。

但这并不代表扣子空间不能化解这个难题:我们可以在开启「规划模式」后,在纠偏的时候给它明确的数据源定义,并且让它主动调用 python/MySQL 或其他代码能力,去爬取最准确、真实的数据;或者,我们也可以从权威来源手动下载格式和内容未优化的报告,然后再通过官方支持的多维表格扩展插件,来生成任务需要的知识库。

扣子空间支持调用外部 MCP 工具(正式版),目前已经支持了十多个字节跳动内部以及外部(例如墨迹天气、高德地图等)的 MCP 扩展。所以理论上,进出口行业专业数据库提供商也可以开发自己的 MCP 扩展,整合到扣子空间里。这样再复杂、再无厘头的关税进展,也难不倒实习生了。

再来个纯代码的小任务,可能有点大材小用了。让扣子空间来做一个 hello world printer,并且中途修改需求。

还不会写代码的领导们,终于不用怕员工跑路了:你也可以让 AI 实习生教你写代码。

前面这些测试的都还是扣子空间默认激活的「通用实习生」。

而在首页还有「专家 Agent」的入口,目前 beta 阶段开放了两个可用专家,分别是用户研究专家(扣子官方开发)和华泰A股观察助手(华泰证券和扣子共同开发)。

以A股观察助手为例,它的进入界面和通用实习生略微不同,允许用户基于自选股和板块定制日报,也支持一对一咨询功能,将智能体变成用户可以独享的证券分析师。

这两个专家 Agent,也是扣子空间的 MCP 扩展能力的直接体现。它可以将扣子的大模型与第三方服务提供商的大模型能力放在同一个上下文里,实现 MCP server 之间的「协作」。

当 AI 从 「工具」 变成 「搭子」:人机不分工,而是共生进化

传统大模型产品和工具的能力天花板,决定了它们的主要用途是处理事务性工作,替代重复性劳动(例:文本生成、数据整理和格式化、基础规划等);而正如前面提到,智能体/MCP 整合深度思考、任务拆解与规划、按步骤自动化执行任务的能力,但这种「全自动」的方式仍然存在弊端。

与前两者相比,扣子空间提出一种新的思路:在全流程得到真人用户实时监督的环境下,让 AI 深度参与到解决问题的完整工作流中,实现人和智能体的有机协同工作。

「AI 实习生」确实是一个挺有趣的类比,它一边和你协同工作,一边从你身上学习,逐渐熟悉你的工作习惯和要求,掌握你的目的动机和思维逻辑——每一个优秀的 mentor 都希望自己的实习生能够成长为独当一面的全职员工,而这种成长,需要通过聪明的工作方式,和一次又一次的成果交付,才能逐渐获得。

工具不断推陈出新,工作方式也因为 AI 变得很酷。但归根结底,高效稳定地交付成果,才是王道。

从另一角度来看,当 AI 工具的能力和服从性同步提升,每个职场打工人都能随时召唤自己的 AI 实习生,愈发复杂困难的任务也能够被轻松化解,打工人自己又将何去何从?

或许这既是一次警钟,也是一次契机,提醒我们应该将自身的精力和时间,转移到以下两个方面:一是提高自己操控 AI 工具的能力;二是专注于那些永远无法被 AI 所取代的创造性和思考性工作。

毕竟,在职场上,稀缺的永远不是办事的能力,而是独到的思考。

当然,那样的未来还需要时间去实现。现在不妨申请扣子空间体验资格,让你的 AI 实习生 / 数字职场好搭子先 「上岗」 试试。

或许,你的工作方式,以及职场生活质量,将迎来巨大的改变。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿|原文链接· ·新浪微博

0 阅读:44