头图来源:极客公园
整理|连冉
编辑|靖宇
2024年被业界视作 AI 应用之年,在即将到来的2025年, Agent 则被广泛看好。上周,谷歌正式发布其最新版大模型Gemini 2.0系列,并表示这是他们迄今为止最强大的人工智能模型,「专为Agent时代设计」。如何将「智能体」打破传统人机互动的局限,成为业界热议的核心问题。
在极客公园 IF2025 创新大会上,无界方舟(AutoArk)创始人兼 CEO 曾晓东在《除了找 AI 做「情侣」,AI还能做什么?》主题演讲中,深入探讨了 AI Agent 的未来发展方向,尤其是如何通过基础智能体(Foundation Agent)推动 AI 从单一任务助手向个性化、情感化的智能伙伴迈进。
从最初的 AlphaGo 到如今的大型语言模型,再到垂直领域的专业化智能体,AI Agent 的功能和应用范围正在迅速扩展。然而,随着 AI 技术进入个人生活领域,智能体不再仅仅是完成任务的工具,也越来越成为理解用户情感、满足个性化需求的核心伙伴。
在交互、记忆和技能等关键领域,如何实现低延迟、带视觉理解、高情感互动的实时反馈,如何构建个性化的记忆系统,如何在虚拟与物理环境都具备鲁棒的执行能力,成为智能体进化的重要挑战。
曾晓东介绍的「个人基础智能体」概念,正是基于此背景而提出。他强调个人领域的AI Agent不仅是解决单点问题的助手,更是用户的长期伙伴,个性化满足生产力和情感陪伴的需求,使 AI 能够真正理解和融入用户的生活与工作。
同时,曾晓东指出,个人领域的AI Agent,将不止存在于现有的手机、电脑,还会存在于越来越多的新型硬件终端。所以,无界方舟的探索不仅涵盖了技术方面的突破,也孵化了基于自研技术优势的硬件产品,将于明年发布的智能机器人「阿奇」,也是这一理念的体现。
在这一全新的 AI 智能体蓝图下,曾晓东和无界方舟团队的技术探索正加速落地,未来的 AI 产品或许将成为每个人生活中不可或缺的个性化伙伴,进一步推动人机交互迈向更高的智能化、情感化层次。
在曾晓东眼中,无界方舟的专业领域智能体方案,也将为企业级市场带来前所未有的机遇。AI Agent 可谓应运而生,通过与行业专家的互动逐渐学习和优化,从而为企业业务流程的数智化转型铺平道路。
新的一年即将到来,AI产业的下一个阶段也将拉开序幕。预计到2025年,AI Agent 的应用市场将达到数百亿美元规模,2025 年有望成为 AI Agent 商业爆发元年。
以下为曾晓东在极客公园 IF2025 创新大会的演讲实录,由极客公园整理。
AI Agent 是如何发展的?曾晓东:大家下午好!我是无界方舟的创始人曾晓东。
在过去两年多的时间里面,我跟我的团队一直在坚持一个方向——AI Agent,我们目前正在从传统的 AI Agent 迈向基础智能体(Foundation Agent)。
我们可以先从实践的路径看一下 AI Agent 的发展路线。
AI Agent的发展路线 |图片来源:无界方舟
其实 Agent 在近 20 年来,第一次出现在人类视野的是 AlphaGo,在强化学习方面,用 Agent 在大量棋局中跟环境做互动,学会下围棋这个任务。但这些 Agent 都只会处理单一任务,所以在 AlphaGo 之后,Agent 在很长一段时间没有受到更多关注,直到大模型的出现。
以语言基础模型举例,它可以处理许多任务,包括中长尾的任务。在LLM上很快长出了不少基础 Agent 框架,我们也看到很多 Prompt Agent 的出现,也就是通过写 Prompt 给 Agent 一定的角色,包括给它配置一些可调用的工具。据不完全统计,目前全球有超过 70 多万 Prompt Agent 应用。现在只要大家打开任何一个大模型的 App,一定会有一个 Tab 是关于智能体的。这些 Agent 我们统称为Prompt Agent 或者 Baby Agent,因为它们本质上依然是大语言模型的某些通用能力,只是通过写Prompt的方式将其功能具象化。
我认为 AI Agent 在未来会有两个深水区:专家 Agent 和 个人 Agent。
当 Agent 进入第一个深水区,垂直领域,就需要专业度更高的 Agent。直接套用通用模型的 Prompt Agent 无法满足垂直领域要求的专业度,在以往的专业案例中,通用模型在垂直领域的任务通过率往往不足50%。所以我们需要专家 Agent,将模型与垂直领域数据、专业业务流程做深度耦合,形成专业度极高的 AI Agent。
针对高度复杂的任务,我们甚至可以组建一个多智能体团队,去解决特别难的命题。这里举一个产品案例,是我们在上半年推出的产品,来攻克医药研发领域的难题。在该产品中,我们有 18 个专业化的 Agent,每个 Agent 背后的模型是不一样的,18个 Agent 可以相互进行自然语言沟通、写代码、调用医学工具和模型、自动纠错等,去处理高度复杂的问题。
对于专家 Agent 这个层面来说,能够产生商业模式的关键,是 Agent 在该垂直领域的专业度。无论采用的是单智能体方案,还是多智能体方案,都要有效起到理想的降本提效作用。
无界方舟多专家智能体产品 AgentStudio |图片来源:无界方舟
当Agent进入第二个深水区,个人领域,它除了能帮助用户提升生产效率,还会提供更多情绪价值。个人领域 Agent 不只存在于手机或电脑,还会搭载于更多终端,比如眼镜、智能音箱、未来的人形机器人,还有更多新型的智能硬件。这其中存在着非常大的 GAP,无论是硬件AI产品,还是软件AI应用,基础模型与应用之间仍存在着许多核心问题待解决,比如说交互体验、个性化的记忆、执行能力等等。
我们团队在过去很长时间,都在探索个人领域到底需要怎样的 Agent?我们认为,个人领域需要的绝不是传统意义的 Agent,而是基础智能体,我们给它一个新的名词叫作 Personal Foundation Agent(个人基础智能体)。
基础模型与 AI 应用之间的 GAP,需要通过个人基础智能体来解决|图片来源:极客公园
基础智能体三要素:交互、记忆、技能个人基础智能体的背后有三个基础能力,我们要把它做到高水位,这样个人化应用的落地才会变得更加快捷。
个人基础智能体三要素|图片来源:无界方舟
第一个维度是交互,不只是文本的交互,还包括语音、视觉理解的实时交互。
第二个维度是记忆,个性化的记忆,基础模型之外的记忆系统应该如何去搭建。
第三个维度是技能,也就是 AI Agent 的执行能力。
如果我们把这三个要素画在同一个坐标系中,我们刚才所看到的不管是 AlphaGo 、Prompt Agent,还是专家型的 Agent,它们都处于坐标系的左下角,而我们的目标是要做一个位于坐标系右上角的个人基础智能体,难度极高。我们在过去两年多的时间,在每个维度都取得了一些阶段性成果。接下来我会一一为大家介绍。
我们先看交互这个维度。在做一款个人 AI 应用时,不管是软件类的,还是硬件类的,在许多场景,需要的不仅仅是 LLM 纯文本交互能力,而是拟人且实时的语音、视觉理解互动能力,也就是下图中间部分的交互能力。
传统方法一般是用“三段式”的串行链路来实现音视频交互,也就是先接一个语音识别 ASR、再接一个大模型 LLM、最后衔接一个语音合成服务 TTS,但这种方式有三个致命问题:1)延迟很高;2)交互僵硬;3)没有情绪。
传统语音 Agent 交互链路|图片来源:无界方舟
我们举几个常见的Case,比如市面上的各种语音互动玩具,它的反馈延迟大概是 6 秒,这是用传统的“三段式”链路通常会遇到的问题。它的交互不是开放式的,不能随时通过语音打断,许多产品都需要按住物理按钮才能对话,这些都导致了产品体验不佳,退货率极高。
除了“三段式”链路,还有一种方式——端智能,为了降低交互的延迟,把模型压缩部署到端侧。但它会有两个很严重的问题:一是耗电,哪怕把模型压缩到 2B 或者 0.5B,对话几轮就会掉一格电,显然无法满足商业需求;二是偏小的模型,它的智力水平会下降非常多。虽然端侧模型是一个很好的方向,但短时间之内如果要做商业化产品,这并不是一个很好的选择。
那么,Agent 的交互能力到底需要达到什么水平呢?我们需要的是完全开放式的、延迟非常低、带视觉理解能力、情绪表达很丰满、可以驱动软硬件载体的 AI Agent。
个人 Agent 的交互能力需求|图片来源:无界方舟
由于市面上没有现成模型能够直接套用,我们自研摸索出一套理想的解决方案。
第一,它是云端的,还是比较大的模型,但这个模型一定是端到端、多模态的模型,这样它的延迟才会降到很低,情绪也会非常饱满,容易控制。
无界方舟自研探索出来的理想解决方案|图片来源:无界方舟
第二,我们需要一条传输链路 WebRTC,相当于我跟 AI 做视频聊天,视频流、音频流会不断往云上传输。这里最难的是模型,本质上多模态的端到端模型,它的算法架构不会很难,难点在于它的数据来源。因为需要用音频到音频、音频图片到音频的数据,如果找人打标或做录制,成本会非常高,所以我们前期花了很多功夫在合成数据上。
无界方舟多模态基础模型架构|图片来源:无界方舟
通过以下视频,我们可以看到目前模型的效果。在实时音视频下,可做到 400 毫秒极低延迟反馈,展现出较高的智商、情商,有丰富的情绪表达,有 21 种多语言能力,可驱动虚拟形象和硬件的动作。
(以下视频在无界方舟视频号的第一个,公众号编辑时可直接链接过去)
无界方舟在极客公园 IF2025 展会现场的实拍录像|视频来源:无界方舟
我们认为应用多模态、端到端的模型,是做好AI实时交互的必经之路。除了刚才介绍的特性以外,还有更多延展性。
这是我们目前正在做的两个探索型项目,对齐的是其他模态。比如左手边这个对齐的是宠物语言,当然不是真正的宠物语言,是训练师对狗狗叫声的理解;右侧是我们跟脑机接口的厂商正在做的探索项目,目前有一些初步的结果,脑信号可以跟文字进行 Alignment。
无界方舟多模态基础模型的潜在扩展性|图片来源:无界方舟
我们再来看个人基础智能体的第二个维度,个性化记忆。传统大模型的记忆是比较简单的,或者是用简单的向量数据库把上下文储存下来。我们认为 AI 与人的很多交互片段需要一个完整的记忆系统去构建,业界目前正在往这块做深耕,有很多记忆型的产品。
对我们来说,我们希望去构建一个单独的记忆层——AutoMind。在这个记忆层里,我们分两种格式记录记忆,其中一种是存储型的,比如用知识图谱、参数化记忆。
AutoMind个性化记忆系统|图片来源:无界方舟
这个产品界面,展示了我同事过去三个月跟 AI 互动的所有信息和记忆片段。这个模型会为每个用户构建AutoMind记忆系统,结合我们的大模型,它的回答会高度个性化。在我们开源的工作中,我们甚至可以将记忆系统放在端侧,这样它可以实现完全的隐私保护。
AutoMind个性化记忆层|图片来源:无界方舟
第三个是整个Personal Foundation Agent中最难的维度,Agent的技能。
我们尝试去找到一条路径,可以让 Agent 在少量的样本数据或事例中,学会虚拟操作或硬件操作的技能。
Agent Q,学习虚拟世界与现实世界的技能|图片来源:无界方舟
我们最近有一份工作成果很快就会开源,叫作 Action Q。我们本质上是希望让 Agent 学会写一段代码,这个代码是跟技能相关的,会有很多路径的探索、试错,不管是操作网页、玩游戏,还是具身智能的硬件驱动,它都可以学会正确的路径。
Action Q,一种让Agent学各种“技能”的通用方法|图片来源:无界方舟
基础智能体的产品与应用我们目前距达成个人基础智能体(Personal Foundation Agent) 还有一段路要走。在未来,我们除了持续深耕交互、记忆、技能这三个维度的技术能力外,还会孵化一系列搭载个人基础智能体的新型硬件产品,牵引个人基础智能体技术的应用迭代。
无界方舟通过硬件「阿奇」展示其卓越的自研模型能力|图片来源:极客公园
这里我想特别介绍一款硬件产品,它叫「阿奇(Arki)」,非常可爱。它有两种 AI Agent 形态,一种是通过手机 App 直接体验,我可以让它帮我解决工作、生活上的问题;另一种是把手机放到底座上,它就会变成一个具象的机器人,可以有各种硬件动作的交互。目前「阿奇」还没有量产上架,我们通过它向大家展示我们自研的模型技术能力。
此外,我们也正积极寻求与行业优秀伙伴的合作机会,在更多实际应用场景中,融入并发挥我们个人基础智能体的优势。
个人基础智能体的应用场景拓展|图片来源:无界方舟
最后,我想表达的是,随着AI技术不断融入我们的生活,智能体的角色正在发生深刻的变化。它们不再只是冷冰冰的任务执行者,而是逐渐成为能够理解我们情感、提供个性化服务的温暖伙伴。
「个人基础智能体」这个概念,正是基于这样的背景而诞生的。它强调AI不仅要解决实际问题,更要通过陪伴提供情绪价值,使 AI 真正成为理解和融入用户生活的伙伴。无论是我们将在明年推出的智能机器人「阿奇」系列,还是与合作伙伴们共同孵化的产品,都是在践行这一理念。
曾晓东在极客公园 IF2025 创新大会|图片来源:极客公园
与之对应的,「企业专家智能体」也不再是一个遥不可及的概念,而是一个正在被积极应用的技术解决方案。AI Agent 助力医药、医疗、金融等专业领域降本增效,重塑企业内外部的互动方式,赋予千行百业新的生存和发展空间。
随着技术的不断进步和应用的持续深化,我们期待着 AI 迈向更高的智能化、情感化层次,这也将为商业领域带来前所未有的机遇和挑战。我们有理由相信,AI Agent 的市场规模将在 2025 年后迅速增长,引领我们进入一个更加智能、人性化的商业新时代。