2026 年 3 月的一项调查显示,每 33 个 AI Agent 试点项目,只有 4 个活到了生产环境。 这篇文章不是要劝你不做 Agent。而是要帮你做对那个"在哪里放 Agent"的决定。

开篇:三篇博客和一个行业

2024 年 12 月 19 日,Anthropic 的 Erik Schluntz 和 Barry Zhang 发了一篇博客:Building Effective Agents。这篇文章在三个月内被引了几千次,成为 AI Agent 领域事实上的教材。

十五个月后,到了 2026 年 4 月,Anthropic 围绕这个主题已经发了三篇,形成了一个完整的思想链条:

  • 2024.12 · Building Effective Agents —— 定义了 Workflow vs Agent 的边界,给出 5 种 Workflow 模式
  • 2025.06 · Effective Context Engineering for AI Agents —— 把视角从"怎么写 prompt"拉到"怎么管理 context 这种稀缺资源"
  • 2026.03 · Effective Harnesses for Long-Running Agents —— 当 Agent 需要跨多个 context window 工作时,模型之外的一切才是决定成败的东西

这三篇文章合起来读,核心观点高度一致:做最简单有效的方案,只在必要时增加复杂度。

但行业没听进去。

IDC 与 Lenovo 的联合调研发现,企业发起的每 33 个 AI POC 项目中,只有 4 个成功进入生产部署——失败率 88%。Digital Applied 在 2026 年 3 月对 650 位企业技术负责人做的调查进一步确认了这个数字:78% 的企业有 Agent 试点项目,但只有 14% 成功规模化上线。

Gartner 给了一个更惊悚的前瞻:2027 年之前,超过 40% 的 Agentic AI 项目将被取消——不是因为技术不行,是因为治理跟不上。

这些项目是怎么死的?Gravitee 的 2026 年 AI Agent 安全报告说得很直白:88% 的受访企业确认或怀疑发生过 Agent 安全事件,80% 观察到了 Agent 的"高风险行为"。

模型比任何时候都强。框架比任何时候都多。项目比任何时候都容易失败。

这是一个架构问题。更准确地说——这是一个边界感的问题。

第一章:Workflow 和 Agent 之间那根线到底画在哪

1.1 先把定义钉死

行业里"Agent"这个词被用成了万金油。一个带 RAG 的客服机器人叫 Agent,一个能自主调 20 个 API 做投资分析的系统也叫 Agent。这就是 88% 项目死掉的第一个原因——你连自己在建什么都没想清楚

Anthropic 给了迄今为止最干净的分类:

Agentic System(智能系统)是一个伞形概念,下面分两种东西:

  • Workflow:LLM 和工具通过预定义****的代码路径编排。你写代码定义了"先做 A,根据 A 的结果决定做 B 还是 C,然后做 D"。LLM 在每个节点被调用,但整个流程的骨架是你画的
  • Agent:LLM 动态****地控制自己的流程和工具使用。你给它一个目标和一组工具,它自己决定先用哪个工具、再用哪个、什么时候停。

一个生活化的类比:Workflow 像带 GPS 导航的旅行——路线是预设的,每个路口你知道往哪拐,GPS 只在路口提供信息辅助。Agent 像你扔给一个出租车司机一句"带我去一个好吃的地方"——他自己决定走哪条路、去哪家店、路上要不要先加个油。

1.2 这个区分为什么致命

这不是学术分类。它直接决定了你的可调试性、可预测性、成本可控性、审计能力

在 Workflow 里,所有可能的路径都可以被穷举。你写得出流程图,你测得完所有分支。出了 bug,你看流程日志就能定位。

在 Agent 里,路径是模型即时"发明"的。同样的输入,模型这次走了 4 步解决,下次可能走 8 步。昨天它选对了工具,今天它选错了。你的测试覆盖率永远是不完整的——因为你没法穷举一个非确定性系统的所有行为。

一位在 2026 年部署过多 Agent 系统的工程团队写过一个观察:一个用简单 Workflow 只需要 1000 个 token 的任务,换成多 Agent 消耗了 5000 以上的 token,因为每个 Agent 都要读完整的对话历史。调试多 Agent 对话是噩梦——当三个 Agent 产生分歧,追溯原因需要阅读好几页的生成文本。

1.3 金律和它被误读的方式

Anthropic 在第一篇文章里用了一种非常优雅但坚定的方式传达了一个信息:从最简单的方案开始,只在必要时增加复杂度。成功不在于建造最复杂的系统,而在于建造正确的系统。

递进顺序:


Level 0 · 单次 LLM 调用(+ RAG / few-shot)
↓ 真的不够了
Level 1 · Workflow(5 种模式选一个或组合)
↓ 真的还不够
Level 2 · Agent(ReAct / Plan-and-Execute)
↓ 一个 Agent 不够
Level 3 · 多 Agent

每一层之间需要一个显式的判断——“上一层真的不够了吗?”

大部分团队跳过了这个判断。他们直接奔 Level 2 甚至 Level 3——因为融资 PPT 上写"Agent"比写"Workflow"好看。

第二章:五种 Workflow 模式——五种"不上 Agent"的方案

Anthropic 在第一篇文章里给出了 5 种 Workflow 模式。这不是"Agent 的五种类型"——这是五种在你上 Agent 之前应该先试试的架构

2.1 Prompt Chaining · 串行链

把一个复杂任务拆成多个步骤,每一步是一次 LLM 调用,前一步的输出喂给下一步。步骤之间可以加门控——如果上一步输出不满足质量标准就停下来,不往下走。

输入 → [LLM Step 1] → 门控检查 → [LLM Step 2] → 门控检查 → [LLM Step 3] → 输出

适用于步骤明确、有先后依赖的任务。生成大纲→逐章展开→校对,就是一个经典的三步链。RAG 的"检索→重排→合成"也是。

2.2 Routing · 路由

一个 LLM 调用对输入做分类,根据分类结果走不同的下游处理路径。

输入 → [分类器] → 类别 A → [处理 A]
                 → 类别 B → [处理 B]

这是所有 Workflow 模式里 ROI 最高的。一次小模型分类调用(< 200ms),就能让下游的成本和质量同时改善。因为每个分支可以有不同的 system prompt、不同的工具集、甚至不同的模型。

2.3 Parallelization · 并行

多个 LLM 调用同时跑,最后把结果聚合。两种变体:

  • Sectioning(分工):把任务拆成独立子任务并行做。翻译一篇长文档,每段分给一个 LLM 同时翻。
  • Voting(投票):同一个任务用不同 prompt 或模型跑多次,最后投票或比较选最好的。代码安全审查就适合这种——多个不同视角的审查,有一个报警就算有问题。

2.4 Orchestrator-Workers · 编排-工人

一个中央 LLM(编排器)动态拆解任务,把子任务分配给 worker LLM,最后综合结果。

和 Parallelization 的区别:Parallelization 的子任务是代码写死的(“拆成 3 段”),Orchestrator-Workers 的子任务是编排器 LLM 动态决定的。

这个模式处于 Workflow 和 Agent 的边界。编排器有"动态决策"的能力(决定拆什么、给谁),但整体控制流还是"拆→做→合"的固定结构,不是开放循环。

2.5 Evaluator-Optimizer · 评估-优化

一个 LLM 生成输出,另一个 LLM 评估质量,不达标就反馈给前者重新生成,循环直到满意。

Anthropic 在 2026 年 3 月的 harness 文章里给了这个模式一个更深的注解:自评估是靠不住的。他们发现 Agent 对自己生成的内容打分时,倾向于给出偏高的评价——即使在人类看来质量明显不行。所以他们把生成和评估拆成了不同的 Agent——本质上就是 GAN(对抗生成网络)的思路:一个生成,一个判断,两者不是同一个实体。

五个模式的快速选择逻辑

你的问题是什么 用什么模式
步骤明确、有先后依赖 Prompt Chaining
不同类型的输入需要完全不同的处理 Routing
子任务互相独立,可以同时做 Parallelization
不知道该拆成几步——需要 LLM 来判断 Orchestrator-Workers
有明确的质量标准,需要迭代到达标 Evaluator-Optimizer

如果以上五种都不够——用户的输入太开放、路径无法预定义、工具调用顺序必须由模型动态决定——那才是 Agent 应该出场的地方

第三章:ReAct 和 Plan-and-Execute——两个推理引擎的真实边界

当你确认 Workflow 不够用,必须上 Agent 了,下一个问题是:Agent 怎么"想"?

3.1 ReAct:走一步看一步

ReAct(Reason + Act,Yao et al. 2022)是最经典的 Agent 推理循环。

Thought → 我应该先查一下实时价格
Action  → 调用 get_price(BTC)
Observe → $67,500,24h 涨 3.2%
Thought → 价格有了,还需要最近的新闻
Action  → 调用 get_news(BTC, 7d)
Observe → [3 条新闻]
Thought → 够了,可以综合回答了
Answer  → "BTC 目前报价 ..."

模型在每一步根据上一步的工具返回结果,决定下一步做什么。像一个侦探在现场边搜证据边推理。

优势很明显:灵活、适应性强、Thought 步骤让推理过程可解释。工具报错了?换一种方式。结果不对?换个工具。

劣势只有上了生产才会痛

第一,没有全局视野。ReAct 优化的是"下一步最优",不是"全局最优"。一个需要查 5 个数据源的问题,ReAct 查完第 3 个可能就以为够了——因为它看不到全局。

第二,成本方差大。简单问题 3 步搞定,复杂问题可能 15 步。你的成本预算怎么做?AgixTech 2026 年 4 月的生产基准测试给了一个参考:ReAct 的平均每任务成本约 $0.06-$0.09,但方差很大。

第三,循环陷阱。模型可能反复调用同一个 API,每次得到相同的错误,Thought 里写"让我换个参数试试"——但它换的参数和上次一模一样。

3.2 Plan-and-Execute:先画蓝图再施工

Plan-and-Execute 把"想"和"做"分开。先用一个强模型(Planner)生成完整的执行计划,再用一个便宜模型(Executor)逐步执行。

[Planner / 强模型] → "要回答这个问题,需要 5 步:
                      ① 查实时价格  ② 查 7 天新闻
                      ③ 查链上数据  ④ 查社区情绪  ⑤ 综合分析"
[Executor / 弱模型] → 执行 ①  → 执行 ②  → ...
[Planner / 强模型] → 综合所有结果 → 最终回答

核心优势

  1. 全局视野。Planner 在开始时就看到了整个问题的结构,不会出现"查完第 3 个就以为够了"的问题。
  2. 成本可优化。规划用强模型,执行用便宜模型——思考贵一点,动手便宜。AgixTech 同一份基准测试的数据:Plan-and-Execute 平均每任务成本约 $0.09-$0.14,但在复杂多步任务上的成功率约 92%,而 ReAct 约 85%。这不是模型更强的结果——用的是同一个模型——是架构带来的 7 个百分点的差距。
  3. 审计友好。计划本身就是审计记录。监管合规场景尤其喜欢这个特性。

劣势

前置延迟高(等 Planner 生成计划)。适应性弱(计划错了需要 replan 机制)。在简单问题上是浪费。

3.3 还有两种值得知道的推理模式

Reflexion(Shinn et al. 2023):Agent 完成任务后自我评估,如果不满意就把"反思"写入记忆,重试时参考之前的反思。关键局限:需要有清晰的成功标准(代码跑通测试),否则反思就是空话。2025 年的复现研究还发现单 Agent Reflexion 会强化自己的偏见——同一个模型既生成又评价,等于自己给自己打分。

Graph Agent / DAG 并行(LLMCompiler 架构):把任务建模成有向无环图(DAG),依赖关系一满足就立刻执行,多步可并行。速度最快——论文声称 3.6 倍加速——但编排复杂度最高。2026 年的基准测试里它在纯速度上碾压 ReAct 和 Plan-and-Execute,但需要精确的依赖关系建模,不是所有任务都适合。

3.4 2026 年生产共识:纯的不存在

把 ReAct 和 Plan-and-Execute 当两个对立阵营来站队,是 2024 年的思路。2026 年的真相是:生产中几乎没有"纯 ReAct"或"纯 Plan-and-Execute"

Anthropic 三篇博客串起来给出的架构,在行业里慢慢形成了一个有名字的共识——确定性骨架(Deterministic Backbone)+ Agent 节点

[确定性骨架 / 代码控制]
用户输入
  → 意图分类(Routing 模式,代码确定性路由)
  → 路由到对应分支
  → [Agent Node: 用 ReAct 做动态工具调用]
  → 结果交回骨架
  → 安全检查(Evaluator 模式,代码触发)
  → 输出

骨架是代码,不是 LLM。LLM 只在"需要判断力"的节点被调用。控制权永远在代码手里,LLM 是被借调过来的专家,用完了控制权交回去

2026 年 4 月 Graph Digital 的一篇企业部署分析把这个讲得很透:这不是两种方案之间的折中。这是当前的主流生产架构。Workflow 提供可靠性、可审计性和运营可预测性。Agent 在真正需要判断力的节点提供适应性推理。两者都不能替代对方。

第四章:多 Agent——以及为什么你大概率不需要它

4.1 三种架构模式,只有一种活在生产里

Hub-and-Spoke(Supervisor 模式):一个中央 Supervisor 接收请求、分配任务、综合结果。Workers 之间不直接通信。2026 年生产环境中最常见的多 Agent 架构——原因是它是唯一能被调试的。

Flat Mesh(对等网络):Agent 之间自由通信,没有中央协调者。学术论文里常见,生产环境里几乎不用。你没法审计、没法限权、出了问题没人知道谁做了什么决定。

Hierarchical(层级式):多层 Supervisor 树,大型企业跨部门场景用。BASF Coatings 的 Marketmind 就是这种——每个事业部有自己的 Supervisor,上面还有一个公司级 Orchestrator。

4.2 什么时候真的需要多 Agent

只有三个条件同时满足时才考虑:

条件一:单 Agent 的 context window 装不下所有工具和知识。经验阈值是工具超过约 30 个时,模型选对工具的能力开始断崖式下降。

条件二:不同领域需要完全不同的 system prompt、人格、权限边界。金融分析 Agent 和闲聊 Agent 的安全约束完全不同,放在一个 Agent 里会互相污染。

条件三:你有评测体系来证明多 Agent 比单 Agent 更好。没有评测就上多 Agent,等于赌博但不看牌。

只满足一两个条件不算。满足第一个?试试 Tool Loadout(动态加载相关工具子集)。满足第二个?试试 Routing + 切换 system prompt。

4.3 MCP 和 A2A:多 Agent 的通信基础设施

2026 年多 Agent 讨论绕不开两个协议:

MCP(Model Context Protocol),Anthropic 2024 年 11 月发布,2025 年 12 月捐赠给 Linux Foundation 的 Agentic AI Foundation(AAIF)。解决的是 Agent ↔ 工具的通信标准化。截至 2026 年,MCP 月下载量超过 9700 万,被 OpenAI、Google、Microsoft 全部采纳。你可以理解为 AI 时代的 USB-C——一次适配,所有 Agent 通用。

A2A(Agent-to-Agent Protocol),Google 2025 年 4 月发布,2026 年初发布 v1.0。解决的是 Agent ↔ Agent 的通信标准化。MCP 让 Agent 能用工具,A2A 让 Agent 能和其他 Agent 协作——发现彼此的能力、委托任务、共享状态。目前 150+ 组织在生产中使用,包括 Salesforce、SAP、ServiceNow、Deutsche Bank。

一个类比:MCP 是 USB 接口(连接设备和外设),A2A 是 HTTP(连接设备和设备)。前者解决"Agent 怎么用工具",后者解决"Agent 怎么和别的 Agent 说话"。两者是同一个通信栈的两层,不是竞品。

对做产品的人来说:如果你的系统只需要一个 Agent + 多个工具,MCP 够了。如果你需要多个独立 Agent 之间协作,才需要考虑 A2A。绝大多数产品在 2026 年还不需要 A2A。

第五章:Harness Engineering——2026 年真正的战场

如果说前四章讲的是"怎么选架构",这一章讲的是 2026 年真正在决定 Agent 产品生死的东西

5.1 Agent = Model + Harness

Viv Trivedy 在 2026 年初提出了一个后来被 Anthropic、OpenAI、Google 的工程博客反复引用的公式:Agent = Model + Harness

模型是引擎。Harness 是引擎之外的一切——prompt 结构、工具定义、context 管理策略、生命周期钩子、评估循环、安全护栏、跨 session 的状态持久化。

如果你不是模型提供商,你做的就是 Harness。

这不是一个新概念——它只是给"围绕模型的所有工程"取了一个名字。但命名的力量在于它让行业终于开始认真对待这个部分

5.2 Anthropic 的长时运行 Agent 实验

Anthropic 在 2026 年 3 月的 harness 博客里分享了他们让 Claude 自主开发一个完整 Web 应用的实验。结论非常清醒:即使是 Opus 这种前沿模型,用 Claude Agent SDK 在多个 context window 之间循环,如果只给一个高层目标(如"构建一个 claude.ai 的克隆"),也无法交付一个生产级的 Web 应用。

失败模式有两个:

第一,Agent 试图一次搞定所有事——在一个 context window 里实现整个应用。context 用尽时,功能写了一半,没有文档,下一个 session 的 Agent 不知道前一个 session 做到了哪里。

第二,Agent 把功能标记为"完成"但不做端到端测试。它写了代码,甚至跑了单元测试,但没有作为用户真正操作一遍来验证功能是否可用。

解法不是换更强的模型。解法是设计一个更好的 Harness

  • Initializer Agent:第一次运行时做环境搭建,把高层目标拆成具体的 feature list,生成 claude-progress.txt 记录当前状态
  • Coding Agent:每次 session 只做一件事(一个 feature),做完了提交代码并更新进度文件
  • Context Reset:不是 compaction(压缩历史),而是完全重置 context,让下一个 Agent 从干净的上下文开始,只通过进度文件和 git 历史了解"之前做了什么"

Anthropic 还发现了一个微妙但重要的现象:context anxiety(上下文焦虑)。Claude Sonnet 4.5 在感知到 context window 快满的时候,会提前收尾——即使任务还没完成。compaction 解决不了这个问题,因为压缩后模型仍然意识到自己的历史很长。完全重置才能治好这个"焦虑"。有趣的是,后来他们在 Claude Opus 4.5 上测试,这种焦虑行为消失了——这意味着harness 的某些组件是模型特定的,模型升级后需要重新评估

Anthropic 工程师在文末写了一句:随着模型改进,有趣的 harness 组合空间不会缩小——它会移动。

这句话值得反复品味。它意味着 harness engineering 不是一个临时的补丁,而是一个持续存在的工程学科。模型解决了旧问题(context anxiety 消失了),但开启了新能力(可以处理更长时间任务),新能力带来新的失败模式(多天记忆策略、多 Agent 协调),又需要新的 harness 设计。

第六章:怎么不成为那 88%

7.1 一套立刻能用的判断框架

在你写第一行代码之前:

Step 1 · 画用户旅程,标出每一个需要 LLM 的节点。 不是画架构图——是画用户怎么用你的产品。

Step 2 · 对每个节点问一个问题:“这个节点,LLM 需要自己决定下一步做什么吗?” 如果答案是"不需要,步骤是可以穷举的"——用 Workflow。如果答案是"需要,用户的输入太开放了"——那才是 Agent 的地盘。

Step 3 · 用 Workflow 做骨架,用 Agent 做关节。 骨架提供结构和可预测性,关节提供灵活性和适应性。

Step 4 · 选推理循环。 简单动态任务用 ReAct。复杂多步 + 需要审计用 Plan-and-Execute。现实中几乎一定是 Hybrid——Plan-and-Execute 做高层规划,每个步骤内部用 ReAct 做执行。

Step 5 · 确认你不需要多 Agent。 三个条件同时满足才上。

Step 6 · 设计 Harness。 进度文件、context reset 策略、独立 Evaluator、生命周期钩子、可观测性。这些东西的重要性不亚于选对模型。

Step 7 · 评测。 没有评测的架构选择是赌博。Digital Applied 调查里,成功上线的那 14% 的企业,在评测基础设施上的投入比例显著高于失败的那些。

7.2 给技术尽调的四个问题

如果你在评估一个 AI 产品或创业项目:

Q1:“你的系统里,Workflow 占多少,Agent 占多少?”

好答案:“80% 是 Workflow,Agent 只在三个需要动态判断的节点使用。”

坏答案:“我们整个系统就是一个大 Agent。”

Q2:“Agent 部分的平均步数和方差是多少?”

如果创始人答不上来,说明他们没在追踪 Agent 的行为分布。一个健康的 Agent 系统,步数的均值和方差都应该是可控的。

Q3:“你的 Harness 里有什么?”

好答案会提到进度持久化、独立评估、context reset、工具调用监控。坏答案是"我们用了 LangGraph"——框架不是 harness。

Q4:“模型升级后,你的系统需要改什么?”

这个问题测试他们对 harness 和模型耦合度的理解。好答案:"上次 Claude 升级后我们去掉了 context anxiety 的 workaround,加了一个新的长任务分解策略。"坏答案:“换个 model ID 就行了。”

7.3 一个反直觉的观察

最后分享一个我在研究这个主题时越来越确信的观察。

过去两年,行业里有一个隐含假设:架构复杂度 = 技术先进度。用了多 Agent 比单 Agent 高级,用了 Agent 比 Workflow 高级。

这是错的。

架构复杂度 = 你为了解决特定问题不得不付出的代价。 每一层复杂度都有成本——调试成本、运维成本、认知成本、招人成本。好的工程不是"用了最复杂的技术",而是"用最简单的技术解决了问题"

在 2026 年成功部署 Agent 的公司,不一定有最精巧的 Agent 架构。他们是那些尽早意识到编排才是把 Agent 能力变成真实业务可靠性的东西的人。

换句话说——Agent 的价值不在 Agent 本身。在 Agent 周围

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐