从 CoT 到 Agent：一文搞懂 AI 智能体的核心思想

nj0128

235人浏览 · 2026-06-09 11:12:14

nj0128 · 2026-06-09 11:12:14 发布

从 CoT 到 Agent：一文搞懂 AI 智能体的核心思想

前言

最近 AI Agent（智能体）越来越火。

在学习 Agent 的过程中，经常会遇到几个高频概念：

CoT（Chain of Thought）
ToT（Tree of Thoughts）
ReAct（Reason + Act）
Agent（智能体）

很多初学者会觉得这些概念很抽象，甚至容易混淆。

实际上，它们之间是逐层演进的关系：

CoT
 ↓
ToT
 ↓
ReAct
 ↓
Agent

简单来说：

CoT 解决「如何思考」
ToT 解决「如何规划」
ReAct 解决「如何执行」
Agent 解决「如何完成任务」

理解了这几个概念，也就理解了当前主流 Agent 框架的核心设计思想。

一、CoT（Chain of Thought）

什么是 CoT

CoT（Chain of Thought）中文通常翻译为：

思维链

它是大模型最基础的推理方式。

核心思想：

将复杂问题拆解成多个步骤，一步一步推导出答案。

例如：

问题：

一个商品100元，打8折后多少钱？

模型推理过程：

100 × 0.8
↓
80

整个过程如下：

问题
 ↓
步骤1
 ↓
步骤2
 ↓
答案

CoT 的优点

推理能力更强

相比直接输出答案：

问题
 ↓
答案

CoT 会显式展示推理过程：

问题
 ↓
推理
 ↓
答案

因此模型在数学、逻辑分析、代码理解等场景下表现更好。

CoT 的缺点

CoT 最大的问题：

只有一条思路。

例如：

问题
 ↓
错误推理
 ↓
继续错误
 ↓
错误答案

如果第一步走偏，后面往往都会跟着出错。

二、ToT（Tree of Thoughts）

什么是 ToT

ToT（Tree of Thoughts）中文通常翻译为：

思维树

可以理解为：

CoT 的升级版。

它不再只走一条思路，而是同时探索多个方向。

结构类似：

            问题
               │
    ┌──────────┼──────────┐
    │          │          │
  方案A      方案B      方案C

ToT 的工作方式

假设用户提问：

如何提升网站用户活跃度？

Agent 可能生成：

方案A：增加积分体系
方案B：增加社区功能
方案C：优化推荐算法

然后进行评估：

A：70分
B：90分
C：80分

保留最佳方案：

方案B

继续深入分析。

ToT 的优势

相比 CoT：

一条路走到底

ToT 更像：

同时探索多条路
↓
比较优劣
↓
选择最佳方案

因此特别适合：

战略规划
复杂决策
长任务拆解
Agent 任务规划

三、ReAct（Reason + Act）

什么是 ReAct

ReAct 是：

Reason + Act

即：

推理 + 行动

核心思想：

模型不仅负责思考，还负责调用工具。

ReAct 的经典流程

通常写成：

Thought
 ↓
Action
 ↓
Observation
 ↓
Thought

翻译后：

思考
 ↓
行动
 ↓
观察
 ↓
继续思考

一个简单例子

用户：

帮我查询今天北京天气

Agent：

Thought:
我不知道实时天气

Action:
调用天气接口

Observation:
晴天，28℃

Thought:
已经获得结果

Answer:
北京今天晴天，28℃

ReAct 的价值

传统大模型：

用户提问
 ↓
模型回答

ReAct：

用户提问
 ↓
模型思考
 ↓
调用工具
 ↓
获得结果
 ↓
继续思考
 ↓
最终回答

因此能够：

搜索网页
查询数据库
调用 API
执行代码
读取文件

现代 Agent 几乎都建立在 ReAct 思想之上。

四、Agent（智能体）

什么是 Agent

Agent 并不是某一种推理方法。

它是一个完整系统。

通常由以下部分组成：

LLM
+
Memory
+
Tools
+
Planning

即：

大模型
+
记忆
+
工具
+
规划能力

Agent 的工作流程

一个典型 Agent 的执行过程：

用户任务
 ↓
分析需求
 ↓
规划任务
 ↓
调用工具
 ↓
获得结果
 ↓
反思修正
 ↓
继续执行
 ↓
完成任务

Agent 为什么比聊天机器人更强

普通聊天机器人：

问什么
答什么

Agent：

理解目标
↓
制定计划
↓
执行任务
↓
完成目标

因此 Agent 更接近：

数字员工

而不仅仅是：

聊天工具

五、通过代码修复助手理解四个概念

假设用户提出一个任务：

Spring Boot 项目启动失败，请帮我修复

CoT

模型进行单路径推理：

查看报错
 ↓
分析原因
 ↓
给出解决方案

ToT

同时探索多个可能原因：

方案A：配置文件错误
方案B：依赖冲突
方案C：数据库连接失败
方案D：端口占用

然后评估：

哪个可能性最高？

最终确定排查顺序。

ReAct

Thought:
需要查看启动日志

Action:
读取日志文件

Observation:
数据库连接超时

Thought:
继续检查数据库配置

Action:
读取 application.yml

Observation:
数据库地址配置错误

最终定位问题。

Agent

Agent 会把整个流程串联起来：

读取日志
 ↓
分析问题
 ↓
制定排查方案
 ↓
执行检查
 ↓
修改配置
 ↓
重新启动
 ↓
验证结果

最终完成任务。

这时它已经不仅仅是在回答问题，而是在真正执行一个完整任务。

六、四者之间的关系

可以把它们理解成盖房子的过程。

层级	名称	作用
第一层	CoT	单路径推理
第二层	ToT	多路径规划
第三层	ReAct	推理 + 工具执行
第四层	Agent	完整智能系统

关系图：

                 Agent
                    │
        ┌───────────┼───────────┐
        │                       │
      ToT                    ReAct
   （规划决策）           （执行行动）
        │                       │
        └───────────┬───────────┘
                    │
                   CoT
               （基础推理）

七、总结

一句话概括：

CoT 负责思考
ToT 负责规划
ReAct 负责执行
Agent 负责整合

进一步总结：

概念	核心作用
CoT	让模型学会一步一步思考
ToT	让模型学会探索多个方案
ReAct	让模型学会调用工具执行任务
Agent	将推理、规划、工具和记忆整合成完整系统

现代 Agent 的本质可以理解为：

Agent
=
LLM
+
CoT
+
ToT
+
ReAct
+
Memory
+
Tools

理解了这几个概念，也就理解了当前大部分 Agent 框架（LangGraph、LangChain、CrewAI、AutoGPT 等）的核心设计思想。

对于程序员来说，可以记住一句话：

CoT 让模型会思考，ToT 让模型会规划，ReAct 让模型会行动，而 Agent 则让模型真正开始工作。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

受不了 Burp 几百 MB 还要装 JRE：我用 Rust + GPUI 写了个 16MB 的安全套件

嫌 Burp Suite 动辄数百 MB、依赖 JVM、空载就吃几百兆内存，我用纯 Rust 内核 + gpui(GPU 加速)原生界面重写了一套对标 Burp 的安全测试工作台 Scry：单文件二进制 14MB、打包 .app 15MB、压缩包不到 10MB。本文拆解它如何做到这么小，以及 MITM 解密内核、TLS 指纹、WASM 扩展沙箱、给 AI 用的 MCP 接口等关键工程实现。

MCP技术社区

Spring AI Alibaba Graph 技术要点与实践

Spring AI Alibaba Graph 核心是用于把复杂 AI 流程的执行结构显式化。节点负责单步能力，状态负责跨节点传递上下文，边负责流程走向，CheckpointSaver 负责持久化，interruptBefore 和 resume 负责人工介入后的恢复。当一个 AI 功能开始涉及多次模型调用、外部系统动作、条件分支、人工确认或异步回调时，就应该考虑用 Graph 来组织流程。这样可

MCP技术社区

Go语言的cgo调用开销与纯Go实现性能对比的实际测量数据

测试内存拷贝操作时，纯Go的`copy`函数性能为1.2GB/s，而cgo通过C的`memcpy`仅实现0.8GB/s。在数值计算场景中，纯Go的斐波那契数列计算耗时约120纳秒，而cgo调用C实现的版本耗时达到800纳秒，开销增加近7倍。高并发场景下，纯Go的goroutine调度耗时稳定在微秒级，而cgo调用因线程锁定机制，并发数超过1000时延迟显著上升，峰值延迟增加10倍以上。实测表明，c