从 CoT 到 Agent:一文搞懂 AI 智能体的核心思想
从 CoT 到 Agent:一文搞懂 AI 智能体的核心思想
前言
最近 AI Agent(智能体)越来越火。
在学习 Agent 的过程中,经常会遇到几个高频概念:
- CoT(Chain of Thought)
- ToT(Tree of Thoughts)
- ReAct(Reason + Act)
- Agent(智能体)
很多初学者会觉得这些概念很抽象,甚至容易混淆。
实际上,它们之间是逐层演进的关系:
CoT
↓
ToT
↓
ReAct
↓
Agent
简单来说:
- CoT 解决「如何思考」
- ToT 解决「如何规划」
- ReAct 解决「如何执行」
- Agent 解决「如何完成任务」
理解了这几个概念,也就理解了当前主流 Agent 框架的核心设计思想。
一、CoT(Chain of Thought)
什么是 CoT
CoT(Chain of Thought)中文通常翻译为:
思维链
它是大模型最基础的推理方式。
核心思想:
将复杂问题拆解成多个步骤,一步一步推导出答案。
例如:
问题:
一个商品100元,打8折后多少钱?
模型推理过程:
100 × 0.8
↓
80
整个过程如下:
问题
↓
步骤1
↓
步骤2
↓
答案
CoT 的优点
推理能力更强
相比直接输出答案:
问题
↓
答案
CoT 会显式展示推理过程:
问题
↓
推理
↓
答案
因此模型在数学、逻辑分析、代码理解等场景下表现更好。
CoT 的缺点
CoT 最大的问题:
只有一条思路。
例如:
问题
↓
错误推理
↓
继续错误
↓
错误答案
如果第一步走偏,后面往往都会跟着出错。
二、ToT(Tree of Thoughts)
什么是 ToT
ToT(Tree of Thoughts)中文通常翻译为:
思维树
可以理解为:
CoT 的升级版。
它不再只走一条思路,而是同时探索多个方向。
结构类似:
问题
│
┌──────────┼──────────┐
│ │ │
方案A 方案B 方案C
ToT 的工作方式
假设用户提问:
如何提升网站用户活跃度?
Agent 可能生成:
方案A:增加积分体系
方案B:增加社区功能
方案C:优化推荐算法
然后进行评估:
A:70分
B:90分
C:80分
保留最佳方案:
方案B
继续深入分析。
ToT 的优势
相比 CoT:
一条路走到底
ToT 更像:
同时探索多条路
↓
比较优劣
↓
选择最佳方案
因此特别适合:
- 战略规划
- 复杂决策
- 长任务拆解
- Agent 任务规划
三、ReAct(Reason + Act)
什么是 ReAct
ReAct 是:
Reason + Act
即:
推理 + 行动
核心思想:
模型不仅负责思考,还负责调用工具。
ReAct 的经典流程
通常写成:
Thought
↓
Action
↓
Observation
↓
Thought
翻译后:
思考
↓
行动
↓
观察
↓
继续思考
一个简单例子
用户:
帮我查询今天北京天气
Agent:
Thought:
我不知道实时天气
Action:
调用天气接口
Observation:
晴天,28℃
Thought:
已经获得结果
Answer:
北京今天晴天,28℃
ReAct 的价值
传统大模型:
用户提问
↓
模型回答
ReAct:
用户提问
↓
模型思考
↓
调用工具
↓
获得结果
↓
继续思考
↓
最终回答
因此能够:
- 搜索网页
- 查询数据库
- 调用 API
- 执行代码
- 读取文件
现代 Agent 几乎都建立在 ReAct 思想之上。
四、Agent(智能体)
什么是 Agent
Agent 并不是某一种推理方法。
它是一个完整系统。
通常由以下部分组成:
LLM
+
Memory
+
Tools
+
Planning
即:
大模型
+
记忆
+
工具
+
规划能力
Agent 的工作流程
一个典型 Agent 的执行过程:
用户任务
↓
分析需求
↓
规划任务
↓
调用工具
↓
获得结果
↓
反思修正
↓
继续执行
↓
完成任务
Agent 为什么比聊天机器人更强
普通聊天机器人:
问什么
答什么
Agent:
理解目标
↓
制定计划
↓
执行任务
↓
完成目标
因此 Agent 更接近:
数字员工
而不仅仅是:
聊天工具
五、通过代码修复助手理解四个概念
假设用户提出一个任务:
Spring Boot 项目启动失败,请帮我修复
CoT
模型进行单路径推理:
查看报错
↓
分析原因
↓
给出解决方案
ToT
同时探索多个可能原因:
方案A:配置文件错误
方案B:依赖冲突
方案C:数据库连接失败
方案D:端口占用
然后评估:
哪个可能性最高?
最终确定排查顺序。
ReAct
Thought:
需要查看启动日志
Action:
读取日志文件
Observation:
数据库连接超时
Thought:
继续检查数据库配置
Action:
读取 application.yml
Observation:
数据库地址配置错误
最终定位问题。
Agent
Agent 会把整个流程串联起来:
读取日志
↓
分析问题
↓
制定排查方案
↓
执行检查
↓
修改配置
↓
重新启动
↓
验证结果
最终完成任务。
这时它已经不仅仅是在回答问题,而是在真正执行一个完整任务。
六、四者之间的关系
可以把它们理解成盖房子的过程。
| 层级 | 名称 | 作用 |
|---|---|---|
| 第一层 | CoT | 单路径推理 |
| 第二层 | ToT | 多路径规划 |
| 第三层 | ReAct | 推理 + 工具执行 |
| 第四层 | Agent | 完整智能系统 |
关系图:
Agent
│
┌───────────┼───────────┐
│ │
ToT ReAct
(规划决策) (执行行动)
│ │
└───────────┬───────────┘
│
CoT
(基础推理)
七、总结
一句话概括:
CoT 负责思考
ToT 负责规划
ReAct 负责执行
Agent 负责整合
进一步总结:
| 概念 | 核心作用 |
|---|---|
| CoT | 让模型学会一步一步思考 |
| ToT | 让模型学会探索多个方案 |
| ReAct | 让模型学会调用工具执行任务 |
| Agent | 将推理、规划、工具和记忆整合成完整系统 |
现代 Agent 的本质可以理解为:
Agent
=
LLM
+
CoT
+
ToT
+
ReAct
+
Memory
+
Tools
理解了这几个概念,也就理解了当前大部分 Agent 框架(LangGraph、LangChain、CrewAI、AutoGPT 等)的核心设计思想。
对于程序员来说,可以记住一句话:
CoT 让模型会思考,ToT 让模型会规划,ReAct 让模型会行动,而 Agent 则让模型真正开始工作。
更多推荐
所有评论(0)