从 CoT 到 Agent:一文搞懂 AI 智能体的核心思想

前言

最近 AI Agent(智能体)越来越火。

在学习 Agent 的过程中,经常会遇到几个高频概念:

  • CoT(Chain of Thought)
  • ToT(Tree of Thoughts)
  • ReAct(Reason + Act)
  • Agent(智能体)

很多初学者会觉得这些概念很抽象,甚至容易混淆。

实际上,它们之间是逐层演进的关系:

CoT
 ↓
ToT
 ↓
ReAct
 ↓
Agent

简单来说:

  • CoT 解决「如何思考」
  • ToT 解决「如何规划」
  • ReAct 解决「如何执行」
  • Agent 解决「如何完成任务」

理解了这几个概念,也就理解了当前主流 Agent 框架的核心设计思想。


一、CoT(Chain of Thought)

什么是 CoT

CoT(Chain of Thought)中文通常翻译为:

思维链

它是大模型最基础的推理方式。

核心思想:

将复杂问题拆解成多个步骤,一步一步推导出答案。

例如:

问题:

一个商品100元,打8折后多少钱?

模型推理过程:

100 × 0.8
↓
80

整个过程如下:

问题
 ↓
步骤1
 ↓
步骤2
 ↓
答案

CoT 的优点

推理能力更强

相比直接输出答案:

问题
 ↓
答案

CoT 会显式展示推理过程:

问题
 ↓
推理
 ↓
答案

因此模型在数学、逻辑分析、代码理解等场景下表现更好。


CoT 的缺点

CoT 最大的问题:

只有一条思路。

例如:

问题
 ↓
错误推理
 ↓
继续错误
 ↓
错误答案

如果第一步走偏,后面往往都会跟着出错。


二、ToT(Tree of Thoughts)

什么是 ToT

ToT(Tree of Thoughts)中文通常翻译为:

思维树

可以理解为:

CoT 的升级版。

它不再只走一条思路,而是同时探索多个方向。

结构类似:

            问题
               │
    ┌──────────┼──────────┐
    │          │          │
  方案A      方案B      方案C

ToT 的工作方式

假设用户提问:

如何提升网站用户活跃度?

Agent 可能生成:

方案A:增加积分体系
方案B:增加社区功能
方案C:优化推荐算法

然后进行评估:

A:70分
B:90分
C:80分

保留最佳方案:

方案B

继续深入分析。


ToT 的优势

相比 CoT:

一条路走到底

ToT 更像:

同时探索多条路
↓
比较优劣
↓
选择最佳方案

因此特别适合:

  • 战略规划
  • 复杂决策
  • 长任务拆解
  • Agent 任务规划

三、ReAct(Reason + Act)

什么是 ReAct

ReAct 是:

Reason + Act

即:

推理 + 行动

核心思想:

模型不仅负责思考,还负责调用工具。


ReAct 的经典流程

通常写成:

Thought
 ↓
Action
 ↓
Observation
 ↓
Thought

翻译后:

思考
 ↓
行动
 ↓
观察
 ↓
继续思考

一个简单例子

用户:

帮我查询今天北京天气

Agent:

Thought:
我不知道实时天气
Action:
调用天气接口
Observation:
晴天,28℃
Thought:
已经获得结果
Answer:
北京今天晴天,28℃

ReAct 的价值

传统大模型:

用户提问
 ↓
模型回答

ReAct:

用户提问
 ↓
模型思考
 ↓
调用工具
 ↓
获得结果
 ↓
继续思考
 ↓
最终回答

因此能够:

  • 搜索网页
  • 查询数据库
  • 调用 API
  • 执行代码
  • 读取文件

现代 Agent 几乎都建立在 ReAct 思想之上。


四、Agent(智能体)

什么是 Agent

Agent 并不是某一种推理方法。

它是一个完整系统。

通常由以下部分组成:

LLM
+
Memory
+
Tools
+
Planning

即:

大模型
+
记忆
+
工具
+
规划能力

Agent 的工作流程

一个典型 Agent 的执行过程:

用户任务
 ↓
分析需求
 ↓
规划任务
 ↓
调用工具
 ↓
获得结果
 ↓
反思修正
 ↓
继续执行
 ↓
完成任务

Agent 为什么比聊天机器人更强

普通聊天机器人:

问什么
答什么

Agent:

理解目标
↓
制定计划
↓
执行任务
↓
完成目标

因此 Agent 更接近:

数字员工

而不仅仅是:

聊天工具

五、通过代码修复助手理解四个概念

假设用户提出一个任务:

Spring Boot 项目启动失败,请帮我修复

CoT

模型进行单路径推理:

查看报错
 ↓
分析原因
 ↓
给出解决方案

ToT

同时探索多个可能原因:

方案A:配置文件错误
方案B:依赖冲突
方案C:数据库连接失败
方案D:端口占用

然后评估:

哪个可能性最高?

最终确定排查顺序。


ReAct

Thought:
需要查看启动日志
Action:
读取日志文件
Observation:
数据库连接超时
Thought:
继续检查数据库配置
Action:
读取 application.yml
Observation:
数据库地址配置错误

最终定位问题。


Agent

Agent 会把整个流程串联起来:

读取日志
 ↓
分析问题
 ↓
制定排查方案
 ↓
执行检查
 ↓
修改配置
 ↓
重新启动
 ↓
验证结果

最终完成任务。

这时它已经不仅仅是在回答问题,而是在真正执行一个完整任务。


六、四者之间的关系

可以把它们理解成盖房子的过程。

层级 名称 作用
第一层 CoT 单路径推理
第二层 ToT 多路径规划
第三层 ReAct 推理 + 工具执行
第四层 Agent 完整智能系统

关系图:

                 Agent
                    │
        ┌───────────┼───────────┐
        │                       │
      ToT                    ReAct
   (规划决策)           (执行行动)
        │                       │
        └───────────┬───────────┘
                    │
                   CoT
               (基础推理)

七、总结

一句话概括:

CoT 负责思考
ToT 负责规划
ReAct 负责执行
Agent 负责整合

进一步总结:

概念 核心作用
CoT 让模型学会一步一步思考
ToT 让模型学会探索多个方案
ReAct 让模型学会调用工具执行任务
Agent 将推理、规划、工具和记忆整合成完整系统

现代 Agent 的本质可以理解为:

Agent
=
LLM
+
CoT
+
ToT
+
ReAct
+
Memory
+
Tools

理解了这几个概念,也就理解了当前大部分 Agent 框架(LangGraph、LangChain、CrewAI、AutoGPT 等)的核心设计思想。

对于程序员来说,可以记住一句话:

CoT 让模型会思考,ToT 让模型会规划,ReAct 让模型会行动,而 Agent 则让模型真正开始工作。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐