AI Agent 知识点总结

我不是8神

530人浏览 · 2026-02-26 22:45:24

我不是8神 · 2026-02-26 22:45:24 发布

一、核心定义

AI Agent（人工智能体）是以大语言模型（LLM）为核心大脑，具备感知、规划、记忆、工具调用、行动、反思能力，能自主理解目标、拆解任务、调用外部资源、执行复杂流程并迭代优化的智能实体。

本质：从 “被动响应式 AI” 升级为目标驱动的自主代理，实现 “人定目标，AI 自主完成”。
核心公式：AI Agent = LLM + 规划 + 记忆 + 工具调用 + 反思。

二、关键特征

自主性：无需全程人工干预，自主决策行动路径、处理异常。
目标导向：围绕用户目标拆解任务、动态调整策略。
环境交互：感知内外信息，通过行动影响环境并接收反馈。
工具复用：调用 API、搜索引擎、代码解释器、RPA、数据库等外部能力。
记忆迭代：短期上下文记忆 + 长期经验 / 知识库，支持持续学习优化。

三、核心架构（五大模块）

1. 感知层（输入 / 五官）

功能：采集多模态信息（文本、语音、图像、传感器、API 数据、网页内容），提取意图、实体、上下文。
技术：NLP、计算机视觉、语音识别、信息抽取、RAG（检索增强生成）。

2. 规划层（决策 / 大脑）

核心：将复杂目标拆解为可执行子任务，生成执行流程、处理分支与异常。
主流技术：
- 思维链（CoT）：分步推理，提升复杂问题解决能力。
- 思维树（ToT）：多分支推理，投票选最优解。
- ReAct 框架：推理（Reason）+ 行动（Act）循环，边思考边执行。
- MRKL 架构：模块化推理，分配专用模块处理子问题。

3. 记忆层（经验 / 存储）

短期记忆：对话上下文、当前任务状态（LLM 上下文窗口）。
长期记忆：用户偏好、历史任务、知识库、反思结果（向量数据库、知识图谱）。
工作记忆：临时存储执行中的中间结果，支撑多步任务流转。

4. 工具调用层（能力扩展 / 手脚）

功能：对接外部工具，突破 LLM 自身局限（实时数据、计算、操作）。
典型工具：搜索引擎、代码解释器、API 接口、数据库、RPA、浏览器、专业软件。
机制：工具注册→决策调用→参数传递→结果解析→反馈给规划层。

5. 行动与反思层（执行 / 优化）

行动：输出文本 / 语音、生成报告、调用 API、操作系统、控制硬件、执行自动化流程。
反思：评估执行结果，判断是否达标；复盘失败原因，调整规划与策略，实现自我优化。

四、主流架构模式

分层架构：按功能分层（感知→决策→行动），关注点分离、易维护。
黑板架构：共享中央数据存储，多模块异步协作，适合复杂协同任务。
包容架构：底层处理基础行为（避障），高层覆盖底层，适合机器人等具身智能。
混合架构：结合多种模式，兼顾效率与灵活性，是工业界主流选择。

五、核心能力

复杂任务拆解：将模糊目标转化为结构化子任务流。
动态决策：根据环境与反馈调整执行路径，处理异常。
多工具协同：串联多个工具完成跨系统、跨流程任务。
上下文理解：基于长期记忆提供个性化、连贯服务。
自我迭代：通过反思优化决策逻辑，提升任务成功率。

六、典型应用场景

个人助理：日程管理、信息检索、邮件撰写、行程规划。
企业服务：智能客服、数据分析、报告生成、流程自动化、知识问答。
开发辅助：代码生成、调试、测试、文档编写、API 调用。
行业专用：医疗诊断辅助、金融投研、自动驾驶、工业机器人控制。
多 Agent 协作：角色分工（协调者 / 执行者 / 监督者），协同完成复杂项目。

七、技术挑战

幻觉问题：LLM 生成虚假信息，影响决策可靠性。
规划可靠性：复杂任务拆解易出错，异常处理能力不足。
记忆管理：长期记忆检索效率、隐私与一致性问题。
工具集成：工具接口标准化、调用稳定性、权限安全。
成本与效率：大模型推理成本高，多步执行延迟大。

八、未来趋势

多 Agent 协同：分布式智能体网络，分工协作解决超复杂问题。
具身智能：Agent 与物理世界深度交互，机器人、自动驾驶等领域突破。
轻量化 Agent：端侧部署，低延迟、高隐私、低成本。
自我进化：更强反思与学习能力，持续自主优化能力边界。
Agent OS：成为下一代操作系统，统一调度 AI 能力与工具生态。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

解密 MCP 协议：如何用 Node.js 从零手写一个本地文件读取 MCP 服务器

MCP技术社区

DeepAgents - 配置MCP Server

Agent 配上 tool 才能干活——查时间、调 API、操作日历。你可以直接用 LangChain 的@tool装饰器写本地函数给 Agent 用, 但如果这个 tool 也想通过 API 暴露给外部客户端远程调用, 那就得上 MCP 了。本文记录在一个实际项目中用 FastMCP 写 datetime 工具服务、再用的接入 deepagents 的过程。