20分钟理解AI智能体:从虚拟助手到智能决策者

1引言

最近，该领域从LLM驱动的聊天机器人转向了现在所定义的代理系统或代理人工智能，可以用一句老话来概括：“少说多做”。

跟上晋升步伐可能令人望而生畏，尤其是如果你已经有了一家现成的公司要经营。更不用说晋升的速度和复杂性会让你感觉就像是上学的第一天。

本文根据 AI 智能体的组件和特征对其进行了概述。简介部分介绍了构成“AI 智能体”一词的组件，以创建直观的定义。在建立定义之后，以下部分将探索 LLM 应用程序形式因素的演变，特别是从传统聊天机器人到智能体系统。

总体而言，主要目的是了解为什么 AI 智能体在 AI 应用程序开发领域变得越来越重要，以及它们与 LLM 驱动的聊天机器人有何不同。在本指南结束时，您将更深入地了解 AI 智能体、它们的潜在应用以及它们如何影响您组织中的工作流程。

2AI智能体是什么

AI 智能体的主要组件

“AI 智能体”一词的两个组成部分可以让我们更深入地理解其含义。让我们从简单的开始：人工智能，也称为 AI。

人工智能 (AI)是指非生物形式的智能，它大致基于对人类智能的计算模仿，旨在执行传统上需要人类智慧才能完成的任务。

为计算系统提供智能的主要方法是通过机器学习和深度学习技术，其中计算机算法（特别是神经网络层）从提供的数据集中学习模式和特征。人工智能系统被开发用于解决检测、分类和预测任务，由于基于变换器的基础模型的有效性，内容生成成为一个突出的问题领域。在某些情况下，这些人工智能系统的表现与人类相当，在特定场景中，它们甚至超越了人类。

第二个组成部分“代理”是在技术和人类背景中使用的熟悉术语，理解这两个观点有助于澄清人工智能代理的概念。

1. 在计算机科学和技术中：计算机科学主题中的术语“智能体”是指通过传感器实现环境意识和感知，并能够通过动作机制在其环境中采取行动的实体（软件智能体）。在这种情况下，智能体是一个计算系统，它：

有自主权做出决定并采取行动。可以与周围环境互动。能够追求目标或执行任务。可以学习或运用知识来实现其目标。

2.在人类语境中： “代理人”一词通常指代表另一个人、团体或组织行事的人，通常扮演决策、信息收集和共享的代理角色。代理人的角色和职责可能包括：

经被代表方许可的授权，为其他人作出决定或采取行动。在交易和合同场景中正式代表某人，同样需要获得主要方的授权。多方之间的中介。

要理解人工智能Agent，我们必须结合技术和人类背景的特点，在应用人工智能的指导原则的同时使用“代理”一词。这种结合使我们能够理解人工智能Agent如何以及为何特别适合执行通常需要人类智能和代理的任务。

基于人工智能代理这个术语的基础背景，我们可以形成人工智能代理的定义。

人工智能Agent是一个能够感知周围环境的计算实体，它具备通过输入进行感知、通过使用工具采取行动以及通过由长期和短期记忆支持的基础模型进行认知的能力。

AI代理的关键组件和特性

3从LLMs到人工智能体

好啦，你现在是一名AI工程师了。

但是，在您开始构建下一个能创造 10 亿美元收入的 AI 产品之前，让我们先回顾一下，了解我们最初是如何获得 AI 智能体的。我们将研究在 LLM 应用程序方面在短时间内看到的变化。

LLM 应用程序形式的演变是我们在现代应用程序中看到的最快的发展之一。

LLM 应用程序的形式演变

4从传统聊天机器人到 LLM 驱动的聊天机器人

聊天机器人并非新鲜事物；在生成式人工智能 (gen AI) 诞生之前，您可能已经在网站上与聊天机器人互动过。前一代人工智能时代的传统聊天机器人与当今的人工智能对话代理有着根本的不同。它们通常的运作方式如下：

启发式响应：“如果这样，那么这样”的逻辑，或者更正式的基于规则的逻辑，是传统聊天机器人操作模型的基础。它们使用一组预定义的规则和决策树进行编程，以确定如何响应用户输入。预设回复：传统聊天机器人背后是一组预先写好的回复，这些回复根据检测到的某些关键字或短语显示给用户。这在一定程度上是有效的。人工交接：传统聊天机器人中总是有一个“与人交谈”按钮，老实说，这并没有发生太大的变化。“人机对话”仍然是agent系统所急需的机制。

与LLMs的典型对话互动

LLM 驱动的聊天机器人是 LLM 应用的第一个主流介绍。2022 年 11 月 30 日，OpenAI 发布了 ChatGPT，这是一个 Web 界面，提供了简单但熟悉的传统聊天机器人界面（输入和输出可视化区域），但这个 Web 界面背后是 GPT-3.5，这是由 OpenAI 创建并在大量互联网语料库上训练的 LLM。

GPT（生成式预训练 Transformer）基于谷歌于 2017 年推出的 Transformer 架构。该架构使用自注意力机制来处理输入序列，使模型能够考虑每个单词与输入中所有其他单词的关系的上下文。

与传统聊天机器人不同，GPT-3.5 等 LLM 可以根据提供的输入生成类似人类的文本。GPT-3.5 与其他基于 Transformer 的 LLM 的一个关键区别在于，内容生成机制不仅仅基于模式识别和从训练数据集中提取特征，而且这些基础模型可以在提示时创建看似新颖且与上下文相关的内容。

ChatGPT 等基于 GPT 的聊天机器人的推出为企业和商业用例开辟了新的可能性。值得注意的用例包括代码生成、内容创建、改进客户服务等。基于 LLM 的聊天机器人的功能标志着从传统的基于规则的聊天机器人向更灵活、更智能、更强大的 AI 助手的重大转变。

尽管 LLM 驱动的聊天机器人功能先进，但仍面临某些限制。一个重大挑战是个性化。这些系统很难在长时间对话或多个会话中保持一致、个性化的互动。更令人担忧的是 LLM 能够合成像人类一样连贯但不准确的响应。这种现象引起了人们的担忧，主要是因为这些系统开始高度自信地提供错误信息，这种现象现在被称为“幻觉”。

重要的是要明白，当 LLM“产生幻觉”时，它并不是出了故障，而是在做它被训练要做的事情：根据输入标记和训练数据所告知的一组概率生成下一个输出标记。这个过程有时会导致听起来合理但实际上不正确的输出。

解决这些限制成为开发更先进的 AI 系统的关键重点，从而引发了对可以“巩固” LLM 输出的技术的探索。一项突出的技术是检索增强生成 (RAG)。

5 LLM 驱动的聊天机器人到 RAG 聊天机器人

RAG 是一种利用信息检索方法查找并提供相关数据的技术，这些数据随后与用户提示相结合并作为 LLM 的输入。此过程可确保 LLM 生成的输出基于以下两点：

非参数知识：针对特定查询或上下文从外部数据源检索的信息；这通常是从互联网或专有数据中整理出来的实时数据参数知识：LLM 培训过程中嵌入参数的固有知识

通过利用这两种信息来源，RAG 旨在生成更准确、最新且与上下文相关的响应。这种方法通过将模型的响应建立在可检索、可验证的数据上，缓解了纯 LLM 系统的一些局限性，例如幻觉或过时的信息。

检索增强生成 (RAG) 概述

提高 LLM 产出的努力有多个方面，其中之一就是快速工程。快速工程是指编写 LLM 输入查询的做法，这些查询可引导输出达到所需的特性，例如提高准确性、相关性和特异性。该技术涉及精心设计给予 LLM 的初始提示，以确保输出更精确、更符合上下文并针对特定任务做出响应。

一些先进的工程技术已经出现，例如情境学习、思路链（CoT）和ReAct（推理与行动）。

情境学习：情境学习利用 LLM 的泛化能力，提供输入输出对，展示要解决的任务和期望的输出。该技术可以通过两种主要方式实现：

一次性学习：提供单个输入输出对作为示例小样本学习：提供多个输入输出对作为示例

该过程通常以没有相应输出的输入结束。根据提供的示例，LLM 会生成一个输出，该输出受提示中给出的输入-输出对的制约和指导。

这种方法允许 LLM 适应特定任务或风格，而无需微调模型的参数。相反，它依赖于模型识别模式并将其应用于相同上下文中的新类似情况的能力。

虽然情境学习提示技术使 LLM 能够推广到新任务，但后续发展（如思维链和 ReAct 提示）利用了 LLM 的突发推理和规划能力。CoT 使 LLM 能够通过逐步推理过程将复杂任务分解为更小、更简单的子部分。ReAct 将 LLM 的推理能力与行动规划相结合。

6RAG 聊天机器人与 AI 代理

随着 LLM 扩展到数千亿个参数，它们展现出越来越复杂的新兴能力。这些能力包括高级推理、多步骤规划以及工具使用或函数调用。

工具使用，有时称为“函数调用”，是指 LLM 生成结构化输出或模式的能力，该输出或模式指定从预定义集合中选择一个或多个函数并为这些函数分配适当的参数值。LLM 中的工具使用功能取决于描述目标或任务的输入提示以及提供给 LLM 的一组函数定义（通常为 JSON 格式）。

LLM 分析输入和函数定义，以确定要调用哪些函数以及如何填充其参数。然后，外部系统可以使用此结构化输出来执行实际的函数调用。

7什么是工具

一般来说，任何可以通过编程方式定义和调用的东西都可以定义为工具，并向 LLM 提供随附的 JSON 定义。因此，RAG 功能可以是一种工具，对外部系统的 API 调用也可以是一种工具。

能够使用工具和函数调用功能的 LLM 有时被称为“工具增强型 LLM”，但值得注意的是，高级推理、多步骤规划和工具使用功能的结合促进了 AI 代理的出现。难题的最后一部分是 AI 代理所处的环境。AI 代理在迭代执行环境中运行，该环境支持目标驱动系统，该系统可以迭代上一次执行的输出以通知当前执行，这可能不同于基于对话的系统界面。

代理交互概述

智能体 Agent系统或复合 AI 系统目前正在成为现代 AI 应用程序的实施范例，这些应用程序与基于 LLM 的聊天机器人相比更为复杂，并且与系统组件的集成更为复杂。智能体Agent系统可以定义为包含一个或多个具有自主决策能力的 AI 代理的计算架构，能够访问和利用各种系统组件和资源来实现既定目标，同时适应环境反馈。不久的将来将提供更多关于理解代理系统的资源。

另一个需要注意的关键术语是“智能体RAG”，它指的是一种利用 LLM 的路由、工具使用、推理和规划功能以及基于比较查询和存储数据的信息检索的范式。该系统范式支持开发动态 LLM 应用程序，这些应用程序可以访问各种工具来执行查询、分解任务和解决复杂问题。

要真正了解人工智能Agent，考虑它们的组件、特性和能力非常重要。

8人工智能体的关键组件和特性

人工智能代理的特征和组成部分

AI 智能体Agent的组件是构成其架构并实现其功能的关键部分。这些组件共同处理信息、做出决策并与环境交互。主要组件包括大脑、动作和感知模块，每个模块在代理的运行中都发挥着至关重要的作用。

智能体是一个由多个集成组件组成的计算实体，包括大脑、感知和行动组件。这些组件协同工作，使代理能够实现其既定目标。

大脑：智能体架构的这一组件负责代理的认知能力，包括其推理、计划和决策能力。智能体的大脑本质上是 LLM。LLM 的新兴能力为代理提供了推理、理解、计划等能力。同时，与人类类似，大脑组件封装了不同的模块，例如记忆、分析器和知识。

记忆模块存储代理与其他外部实体或系统的交互。可以调用这些存储的信息来通知未来的执行步骤，并根据历史交互采取相应行动。分析器模块使智能体Agent能够根据角色特征的描述承担某些角色，这些特征旨在将代理调整为一组行为。

智能体Agent大脑组件中的知识模块能够存储和检索特定领域的、相关的和有用的信息，以便用于规划和采取行动实现目标。

动作：动作组件促进了智能体Agent对其环境和新信息做出反应的能力，该组件包括使代理能够生成响应并调用其他系统的模块。基于 LLM 的智能体Agent可以使用大脑组件中的流程将任务分解为步骤。每个步骤都可以与智能体Agent工具库中的工具相关联。借助 LLM 的推理和规划功能，智能体Agent可以有效地决定在每个步骤中何时使用工具。

感知：此组件仅负责捕获和处理来自代理环境的输入。在代理系统和交互的范围内，输入有多种形式，但提供给代理的主要输入是听觉、文本和视觉。

人工智能体Agent的特征是定义其能力和操作模式的独特功能和行为。这些特征决定了人工智能代理如何与其环境交互、处理信息并实现其目标。关键特征包括自主性、主动性、反应性和交互性。

9人工智能体主要特征总结

人工智能代理具有反思性和主动性：人工智能代理利用高级推理模式来解决复杂问题。它们采用 ReAct 和思维链等技术来分解任务、规划行动并反思结果。利用 LLM 的推理和规划新兴特性，这些代理会根据反馈、先前的执行输出和环境输入不断调整其策略。这种规划、执行和反思的迭代过程使人工智能代理能够高效地执行输入目标。AI 代理具有交互性：在某些情况下，AI 代理可能需要与同一系统或外部系统内的其他代理进行交互，而且通常，它们需要与人类互动以获得反馈或审查执行步骤的输出。AI 代理还可以理解其他代理和人类输出的背景，并改变其行动方向和后续步骤。AI 代理的交互性延伸到角色或角色的承担，以根据所采用的角色驱动和调节 AI 代理的行为以实现可预测性。在多代理环境中，这可以实现社会角色的模仿和基于角色定义的协作。AI 代理具有自主性和反应性：它们的自主特性使它们能够根据内部处理结果和外部观察结果执行操作，通常不需要明确的外部命令。这种反应性由两项关键功能促进：工具使用和输入处理。这些功能使 AI 代理能够动态响应其环境或任务条件的变化，从而相应地调整其行为和动作。

10 结论

在我们的探索中，我们对人工智能代理及其特征有了一定的了解，甚至给出了一个可行的定义。

然而，必须注意一个重要的警告：在当今快速发展的人工智能领域，目前还没有统一的行业标准来定义人工智能体Agent的具体构成。

相反，业界普遍认为，将系统归类为 AI 智能体Agent是在一个范围或连续体上。这种细致入微的观点承认，AI 系统可以表现出不同程度的Agent、自主性和能力。

这就是“Agent”一词进入讨论的地方。“Agent”是指人工智能系统表现出代理特质的程度。这些特质可能包括以下内容：

决策的自主程度。能够与环境互动并操纵环境。以目标为导向的行为能力。适应新情况的能力。主动行为的程度。

这种基于连续体的理解使得对人工智能系统进行分类的方法更加灵活和包容。它认识到，随着人工智能技术的进步，“简单”人工智能系统和成熟人工智能代理之间的界限可能会变得越来越模糊。

11 讨论

1. LLM应用新形态的价值和影响在哪里实现？

在软件和应用程序开发方面，我们倾向于关注价值和影响，以及在早期探索和试验 AI智能体Agent和Agent系统方面所取得的投资回报。首先，我们看到通过自动化手动流程实现的生产力提升的价值。手动审批、文档和审查已嵌入企业组织中的大多数工作流程中。Agent系统在自动化（或换句话说，“Agent化”）现有工作流程中重复的方面方面显示出早期潜力。

Agent系统的另一个价值是减轻企业工作流程中的决策负担。当 AI 智能体嵌入Agent系统和复合 AI 系统时，可以通过规则和指南来指导其决策能力。但更大的价值和影响在于，无需获得技术知识，就可以让日常个人更接近系统，这是因为Agent系统允许使用文本和图像驱动的界面作为调用和执行系统功能的主要驱动力。基础模型输入的多功能性使代理系统能够由自然语言控制，从而降低系统交互的技术复杂性。

2.目前AI堆栈中的参与者的努力处于什么位置？

人工智能智能体Agent的可靠性、可扩展性和性能是人工智能行业中试图提供解决方案的关键参与者关注的领域。解决这些重点领域的方法包括增加基础模型中的参数，以支持人工智能Agent的推理能力，或开发工具来协调人工智能Agent所在系统中的工作流程。

MongoDB 站在数据解决方案的最前沿，提供一套全面的数据库功能和平台功能，专门用于支持企业级和尖端Agent系统的开发。为了向开发人员提供解决智能体Agent系统可靠性、可扩展性和性能的功能，MongoDB 是 AI 智能体Agent和Agent系统的内存提供者。Agent系统中的 MongoDB 在关键领域表现出色，包括：

长期数据管理：MongoDB 提供强大的存储和高效的对话历史检索功能，使 AI 智能体Agent能够通过Atlas Search保持上下文并从过去的交互中学习。向量数据库功能：利用MongoDB Atlas 向量搜索，该平台提供最先进的向量嵌入数据存储和检索功能，这对于 AI 工作负载和语义搜索功能至关重要。可扩展的数据存储：MongoDB 的架构可确保 AI 智能体Agent的操作数据的高性能、可扩展存储，无缝适应不断增长的数据量和计算需求。