目录


01 什么是 Agent:从被动生成到主动执行

LLM vs Agent:从"知道"到"做到"

LLM(大语言模型) Agent(智能体)
基于海量数据的语言模型 LLM + 工具 + 记忆 + 规划
输入问题 → 生成回答 输入任务 → 自主执行 → 交付结果
本质是"知识储备" 本质是"行动能力"
像一个"读过很多书"的学者 像一个"有双手和经验的工程师"

Agent 公式

Agent = LLM(大脑)+ 工具(双手)+ 记忆(经验)+ 规划(策略)

组件 职责
LLM 负责理解和决策 → 大脑
工具(API/函数) 负责执行操作 → 双手
记忆系统(短期+长期) 负责保持上下文 → 经验
规划能力 负责多步推理和任务分解 → 策略

Agent vs RAG:解决不同维度的问题

RAG(检索增强生成) Agent(智能体)
解决"知识不足"问题 解决"行动力不足"问题
检索 → 增强 → 生成 规划 → 执行 → 观察 → 循环
让 LLM 获取更多上下文 让 LLM 能够执行操作
应用场景:问答系统、知识库 应用场景:自动化工作流、决策系统
核心:给模型更多知识 核心:给模型行动能力

混合架构:RAG + Agent

  • RAG 作为 Agent 的工具之一 → Agent Skills 模式
  • Agent 决定何时检索、如何检索、检索后如何推理
  • Agent Skills 比传统 RAG 效果更好:动态检索策略、上下文感知的检索增强
  • RAG 给 Agent 提供知识库,Agent 让 RAG 从被动变主动
  • "检索不是问题,问题是该检索什么、何时检索、检索后怎么做"

02 核心技术组件:Function Calling / Tool Use / MCP

Function Calling(函数调用)

  • LLM 输出结构化 JSON 指令
  • 告诉外部系统"该调用什么函数、传什么参数"
  • LLM 不直接执行,而是做决策调度器
  • 典型流程:用户请求 → LLM 决策 → 生成 JSON → 外部执行 → 结果返回 LLM
  • 这是 Agent 的"最小可行单元"

Tool Use(工具使用)

  • Function Calling 的泛化形式
  • 不仅限于函数调用,可以是任何外部能力
  • 包括:搜索引擎、代码解释器、数据库查询、API 调用
  • Tool Use = Function Calling + 更多类型的外部工具
  • 本质:LLM 学会了"使用工具"而非"记住一切"

MCP(Model Context Protocol)

  • 标准化协议:AI 模型与外部工具之间的"USB-C 接口"
  • 解决工具发现、连接、授权的标准问题
  • 让企业现有微服务 API 可以被 AI 工具发现和使用
  • 三层架构:Protocol(协议)→ Transport(传输)→ Server(服务)
  • 核心愿景:一个协议连接所有 AI 工具和数据源

03 Agent 复杂度分级:从 Toy 到 Platform 四级跃迁

级别 类型 说明 能力
L1 Toy 演示级 Agent 单个 LLM + 1-2 个函数,能完成简单任务演示
L2 Tool 工具级 Agent 多个工具编排,有基本错误处理,能完成特定领域任务
L3 System 系统级 Agent 多 Agent 协作,完整记忆系统,自主规划和调整
L4 Platform 平台级 Agent Agent 生态,可编排、可监控,支持企业级规模

⚠️ L1 的风险:过度承诺,实际能力有限


04 Agent Harness:生产级智能体脚手架的 12 大核心组件

Harness = 12 个核心组件,让 LLM 变成可靠的生产级 Agent

# 组件 职责
1 Orchestration Loop 控制流引擎:决定何时调用工具、何时返回结果、何时循环
2 Tool Registry 工具注册中心:管理所有可用工具的描述、参数、权限
3 Short-term Memory 短期记忆:对话上下文、工具执行结果的历史记录
4 Long-term Memory 长期记忆:向量数据库、知识库、用户偏好学习
5 Context Manager 上下文管理:控制 Token 使用、上下文窗口管理
6 State Persistence 状态持久化:Agent 执行状态的保存和恢复
7 Error Handler 错误处理:工具失败重试、降级策略、异常恢复
8 Guardrails 安全护栏:内容过滤、权限控制、输入输出验证
9 Observability 可观测性:执行链路追踪、日志、性能监控
10 Prompt Manager 提示词管理:模板版本控制、A/B 测试、动态注入
11 Eval & Monitor 评估与监控:质量评估、准确率监控、用户反馈
12 Config System 配置系统:环境配置、特性开关、参数调优

05 主流框架全景:6 大框架横向对比与选型

六大主流 Agent 框架

框架 定位 优势 局限
OpenAI Agents SDK 官方出品 简单直接,适合快速原型 生态绑定 OpenAI
LangGraph 图结构编排 状态管理强,社区最大 学习曲线中等
CrewAI 多 Agent 协作 角色分工明确,业务导向 抽象层级较高
LlamaIndex 数据优先 RAG 集成好,索引能力强 适合数据密集型
PydanticAI 类型安全 Pydantic 生态,开发者体验好 新兴框架
Semantic Kernel 微软支持 企业级,支持多 LLM,微软生态集成

重要动态

  • AutoGen 已进入维护模式,Microsoft 推荐转向 Agent Framework
  • 框架选择不是永久性的 → 核心概念(记忆、工具、规划)跨框架通用
  • 选型建议:从 L2 工具级 Agent 开始验证价值,不要一开始就做多 Agent 系统
  • 选择标准:团队熟悉度 > 生态成熟度 > 功能完整性 > 学习曲线

三步选择你的 Agent 框架

第一步:定目标

你需要什么能力?

  • 简单工具调用 → 选轻量级
  • 复杂多步规划 → 选 LangGraph
  • 多 Agent 协作 → 选 CrewAI
  • 数据检索增强 → 选 LlamaIndex

明确核心需求,排除非必要功能。

第二步:看团队

团队的技术栈是什么?

  • Python 为主 → LangGraph / PydanticAI
  • .NET 生态 → Semantic Kernel
  • 需要 TypeScript → OpenAI SDK

团队熟悉度比框架先进性更重要。

第三步:做验证
  • 用选定框架搭建 L1/L2 原型
  • 验证核心场景是否跑得通
  • 评估开发效率和可维护性
  • 小步验证,不要赌全部

06 企业应用架构:五层架构与三层企业数字化

AI 应用技术栈五层架构

层级 层名 核心能力 对应数字化目标
L5 Harness(脚手架层) 编排、监控、安全 企业落地入口
L4 Agent(智能体层) 自主规划、多步推理 企业员工数字化
L3 Skill(技能层) 可复用工作流 流程自动化
L2 MCP(协议层) 工具标准化连接 企业工具 CLI 化
L1 LLM(大模型层) 理解、生成、推理 基础设施

下一代企业数字化架构

预测:系统 CLI 化 → 流程 Skill 化 → 员工 Agent 化

第一层:系统 CLI 化

把现有系统的 GUI 操作全部 CLI 化 / API 化,让 AI 能够通过程序接口操作企业系统。

  • 核心:API 完备性、工具化能力
第二层:流程 Skill 化

将企业业务流程封装为可复用的 Skill,标准输入输出、可编排、跨系统流程自动化。

  • 核心:流程抽象能力
第三层:员工 Agent 化

员工 + Agent = 超级个体,Agent 处理重复性工作,员工聚焦决策和创新。

  • 人均产出提升 10-100 倍
  • 核心:人机协作模式

07 落地路径与创业机会:垂直领域 Agent 的黄金窗口

Vertical Agent:最好的创业机会

专业服务领域
  • 法律文档审查、合同起草与审查
  • 税务合规咨询
  • 审计辅助分析
行业运营
  • 医疗影像辅助诊断
  • 金融风控建模
  • 供应链优化调度
  • 智能制造质检
工业/专业领域
  • 设备预测性维护
  • 工艺流程优化
  • 质量检测自动化
  • 资源调度优化

为什么垂直领域是最佳机会?

  • 通用 Agent 市场已被巨头占据(OpenAI、Google、Microsoft)
  • 垂直领域的壁垒在于行业知识,而非技术能力
  • 企业更愿意为"懂行"的解决方案付费
  • 从一个小而深的场景切入,建立口碑后再扩展
  • "如果你不是模型,你就是脚手架" —— 而垂直 Agent 是最好的脚手架

七个关键要点

  1. Agent = LLM + 工具 + 记忆 + 规划 —— LLM 只是大脑,不是全部
  2. RAG 解决知识不足,Agent 解决行动不足 —— 两者结合效果最佳
  3. Function Calling 是 Agent 的最小可行单元,MCP 是工具连接的标准协议
  4. 生产级 Agent 需要 12 个核心组件(Harness),不是写几行提示词就够了
  5. 框架选择三步骤:定目标 → 看团队 → 做验证,团队熟悉度比先进性重要
  6. 企业数字化三阶段:系统 CLI 化 → 流程 Skill 化 → 员工 Agent 化
  7. 垂直领域 Agent 是当前最佳创业机会 —— 壁垒在行业知识而非技术

"如果你不是模型,你就是脚手架。"
—— Vivek Trivedy (Anthropic)

Agent 不是魔法,是工程。最好的 Agent 开发者,是那些能把复杂系统拆解成可靠组件的人。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐