你的 Agent 架构选错了：越复杂的 Agent 系统，越可能走向失败

Python编程杰哥

9人浏览 · 2026-06-30 22:09:30

Python编程杰哥 · 2026-06-30 22:09:30 发布

2026 年 3 月的一项调查显示，每 33 个 AI Agent 试点项目，只有 4 个活到了生产环境。这篇文章不是要劝你不做 Agent。而是要帮你做对那个"在哪里放 Agent"的决定。

开篇：三篇博客和一个行业

2024 年 12 月 19 日，Anthropic 的 Erik Schluntz 和 Barry Zhang 发了一篇博客：Building Effective Agents。这篇文章在三个月内被引了几千次，成为 AI Agent 领域事实上的教材。

十五个月后，到了 2026 年 4 月，Anthropic 围绕这个主题已经发了三篇，形成了一个完整的思想链条：

2024.12 · Building Effective Agents —— 定义了 Workflow vs Agent 的边界，给出 5 种 Workflow 模式
2025.06 · Effective Context Engineering for AI Agents —— 把视角从"怎么写 prompt"拉到"怎么管理 context 这种稀缺资源"
2026.03 · Effective Harnesses for Long-Running Agents —— 当 Agent 需要跨多个 context window 工作时，模型之外的一切才是决定成败的东西

这三篇文章合起来读，核心观点高度一致：做最简单有效的方案，只在必要时增加复杂度。

但行业没听进去。

IDC 与 Lenovo 的联合调研发现，企业发起的每 33 个 AI POC 项目中，只有 4 个成功进入生产部署——失败率 88%。Digital Applied 在 2026 年 3 月对 650 位企业技术负责人做的调查进一步确认了这个数字：78% 的企业有 Agent 试点项目，但只有 14% 成功规模化上线。

Gartner 给了一个更惊悚的前瞻：2027 年之前，超过 40% 的 Agentic AI 项目将被取消——不是因为技术不行，是因为治理跟不上。

这些项目是怎么死的？Gravitee 的 2026 年 AI Agent 安全报告说得很直白：88% 的受访企业确认或怀疑发生过 Agent 安全事件，80% 观察到了 Agent 的"高风险行为"。

模型比任何时候都强。框架比任何时候都多。项目比任何时候都容易失败。

这是一个架构问题。更准确地说——这是一个边界感的问题。

第一章：Workflow 和 Agent 之间那根线到底画在哪

1.1 先把定义钉死

行业里"Agent"这个词被用成了万金油。一个带 RAG 的客服机器人叫 Agent，一个能自主调 20 个 API 做投资分析的系统也叫 Agent。这就是 88% 项目死掉的第一个原因——你连自己在建什么都没想清楚。

Anthropic 给了迄今为止最干净的分类：

Agentic System（智能系统）是一个伞形概念，下面分两种东西：

Workflow：LLM 和工具通过预定义****的代码路径编排。你写代码定义了"先做 A，根据 A 的结果决定做 B 还是 C，然后做 D"。LLM 在每个节点被调用，但整个流程的骨架是你画的。
Agent：LLM 动态****地控制自己的流程和工具使用。你给它一个目标和一组工具，它自己决定先用哪个工具、再用哪个、什么时候停。

一个生活化的类比：Workflow 像带 GPS 导航的旅行——路线是预设的，每个路口你知道往哪拐，GPS 只在路口提供信息辅助。Agent 像你扔给一个出租车司机一句"带我去一个好吃的地方"——他自己决定走哪条路、去哪家店、路上要不要先加个油。

1.2 这个区分为什么致命

这不是学术分类。它直接决定了你的可调试性、可预测性、成本可控性、审计能力。

在 Workflow 里，所有可能的路径都可以被穷举。你写得出流程图，你测得完所有分支。出了 bug，你看流程日志就能定位。

在 Agent 里，路径是模型即时"发明"的。同样的输入，模型这次走了 4 步解决，下次可能走 8 步。昨天它选对了工具，今天它选错了。你的测试覆盖率永远是不完整的——因为你没法穷举一个非确定性系统的所有行为。

一位在 2026 年部署过多 Agent 系统的工程团队写过一个观察：一个用简单 Workflow 只需要 1000 个 token 的任务，换成多 Agent 消耗了 5000 以上的 token，因为每个 Agent 都要读完整的对话历史。调试多 Agent 对话是噩梦——当三个 Agent 产生分歧，追溯原因需要阅读好几页的生成文本。

1.3 金律和它被误读的方式

Anthropic 在第一篇文章里用了一种非常优雅但坚定的方式传达了一个信息：从最简单的方案开始，只在必要时增加复杂度。成功不在于建造最复杂的系统，而在于建造正确的系统。

递进顺序：

Level 0 · 单次 LLM 调用（+ RAG / few-shot）
↓ 真的不够了
Level 1 · Workflow（5 种模式选一个或组合）
↓ 真的还不够
Level 2 · Agent（ReAct / Plan-and-Execute）
↓ 一个 Agent 不够
Level 3 · 多 Agent

每一层之间需要一个显式的判断——“上一层真的不够了吗？”

大部分团队跳过了这个判断。他们直接奔 Level 2 甚至 Level 3——因为融资 PPT 上写"Agent"比写"Workflow"好看。

第二章：五种 Workflow 模式——五种"不上 Agent"的方案

Anthropic 在第一篇文章里给出了 5 种 Workflow 模式。这不是"Agent 的五种类型"——这是五种在你上 Agent 之前应该先试试的架构。

2.1 Prompt Chaining · 串行链

把一个复杂任务拆成多个步骤，每一步是一次 LLM 调用，前一步的输出喂给下一步。步骤之间可以加门控——如果上一步输出不满足质量标准就停下来，不往下走。

输入 → [LLM Step 1] → 门控检查 → [LLM Step 2] → 门控检查 → [LLM Step 3] → 输出

适用于步骤明确、有先后依赖的任务。生成大纲→逐章展开→校对，就是一个经典的三步链。RAG 的"检索→重排→合成"也是。

2.2 Routing · 路由

一个 LLM 调用对输入做分类，根据分类结果走不同的下游处理路径。

输入 → [分类器] → 类别 A → [处理 A]
                 → 类别 B → [处理 B]

这是所有 Workflow 模式里 ROI 最高的。一次小模型分类调用（< 200ms），就能让下游的成本和质量同时改善。因为每个分支可以有不同的 system prompt、不同的工具集、甚至不同的模型。

2.3 Parallelization · 并行

多个 LLM 调用同时跑，最后把结果聚合。两种变体：

Sectioning（分工）：把任务拆成独立子任务并行做。翻译一篇长文档，每段分给一个 LLM 同时翻。
Voting（投票）：同一个任务用不同 prompt 或模型跑多次，最后投票或比较选最好的。代码安全审查就适合这种——多个不同视角的审查，有一个报警就算有问题。

2.4 Orchestrator-Workers · 编排-工人

一个中央 LLM（编排器）动态拆解任务，把子任务分配给 worker LLM，最后综合结果。

和 Parallelization 的区别：Parallelization 的子任务是代码写死的（“拆成 3 段”），Orchestrator-Workers 的子任务是编排器 LLM 动态决定的。

这个模式处于 Workflow 和 Agent 的边界。编排器有"动态决策"的能力（决定拆什么、给谁），但整体控制流还是"拆→做→合"的固定结构，不是开放循环。

2.5 Evaluator-Optimizer · 评估-优化

一个 LLM 生成输出，另一个 LLM 评估质量，不达标就反馈给前者重新生成，循环直到满意。

Anthropic 在 2026 年 3 月的 harness 文章里给了这个模式一个更深的注解：自评估是靠不住的。他们发现 Agent 对自己生成的内容打分时，倾向于给出偏高的评价——即使在人类看来质量明显不行。所以他们把生成和评估拆成了不同的 Agent——本质上就是 GAN（对抗生成网络）的思路：一个生成，一个判断，两者不是同一个实体。

五个模式的快速选择逻辑


你的问题是什么	用什么模式
步骤明确、有先后依赖	Prompt Chaining
不同类型的输入需要完全不同的处理	Routing
子任务互相独立，可以同时做	Parallelization
不知道该拆成几步——需要 LLM 来判断	Orchestrator-Workers
有明确的质量标准，需要迭代到达标	Evaluator-Optimizer

如果以上五种都不够——用户的输入太开放、路径无法预定义、工具调用顺序必须由模型动态决定——那才是 Agent 应该出场的地方。

第三章：ReAct 和 Plan-and-Execute——两个推理引擎的真实边界

当你确认 Workflow 不够用，必须上 Agent 了，下一个问题是：Agent 怎么"想"？

3.1 ReAct：走一步看一步

ReAct（Reason + Act，Yao et al. 2022）是最经典的 Agent 推理循环。

Thought → 我应该先查一下实时价格
Action  → 调用 get_price(BTC)
Observe → $67,500，24h 涨 3.2%
Thought → 价格有了，还需要最近的新闻
Action  → 调用 get_news(BTC, 7d)
Observe → [3 条新闻]
Thought → 够了，可以综合回答了
Answer  → "BTC 目前报价 ..."

模型在每一步根据上一步的工具返回结果，决定下一步做什么。像一个侦探在现场边搜证据边推理。

优势很明显：灵活、适应性强、Thought 步骤让推理过程可解释。工具报错了？换一种方式。结果不对？换个工具。

劣势只有上了生产才会痛：

第一，没有全局视野。ReAct 优化的是"下一步最优"，不是"全局最优"。一个需要查 5 个数据源的问题，ReAct 查完第 3 个可能就以为够了——因为它看不到全局。

第二，成本方差大。简单问题 3 步搞定，复杂问题可能 15 步。你的成本预算怎么做？AgixTech 2026 年 4 月的生产基准测试给了一个参考：ReAct 的平均每任务成本约 $0.06-$0.09，但方差很大。

第三，循环陷阱。模型可能反复调用同一个 API，每次得到相同的错误，Thought 里写"让我换个参数试试"——但它换的参数和上次一模一样。

3.2 Plan-and-Execute：先画蓝图再施工

Plan-and-Execute 把"想"和"做"分开。先用一个强模型（Planner）生成完整的执行计划，再用一个便宜模型（Executor）逐步执行。

[Planner / 强模型] → "要回答这个问题，需要 5 步：
                      ① 查实时价格  ② 查 7 天新闻
                      ③ 查链上数据  ④ 查社区情绪  ⑤ 综合分析"
[Executor / 弱模型] → 执行 ①  → 执行 ②  → ...
[Planner / 强模型] → 综合所有结果 → 最终回答

核心优势：

全局视野。Planner 在开始时就看到了整个问题的结构，不会出现"查完第 3 个就以为够了"的问题。
成本可优化。规划用强模型，执行用便宜模型——思考贵一点，动手便宜。AgixTech 同一份基准测试的数据：Plan-and-Execute 平均每任务成本约 $0.09-$0.14，但在复杂多步任务上的成功率约 92%，而 ReAct 约 85%。这不是模型更强的结果——用的是同一个模型——是架构带来的 7 个百分点的差距。
审计友好。计划本身就是审计记录。监管合规场景尤其喜欢这个特性。

劣势：

前置延迟高（等 Planner 生成计划）。适应性弱（计划错了需要 replan 机制）。在简单问题上是浪费。

3.3 还有两种值得知道的推理模式

Reflexion（Shinn et al. 2023）：Agent 完成任务后自我评估，如果不满意就把"反思"写入记忆，重试时参考之前的反思。关键局限：需要有清晰的成功标准（代码跑通测试），否则反思就是空话。2025 年的复现研究还发现单 Agent Reflexion 会强化自己的偏见——同一个模型既生成又评价，等于自己给自己打分。

Graph Agent / DAG 并行（LLMCompiler 架构）：把任务建模成有向无环图（DAG），依赖关系一满足就立刻执行，多步可并行。速度最快——论文声称 3.6 倍加速——但编排复杂度最高。2026 年的基准测试里它在纯速度上碾压 ReAct 和 Plan-and-Execute，但需要精确的依赖关系建模，不是所有任务都适合。

3.4 2026 年生产共识：纯的不存在

把 ReAct 和 Plan-and-Execute 当两个对立阵营来站队，是 2024 年的思路。2026 年的真相是：生产中几乎没有"纯 ReAct"或"纯 Plan-and-Execute"。

Anthropic 三篇博客串起来给出的架构，在行业里慢慢形成了一个有名字的共识——确定性骨架（Deterministic Backbone）+ Agent 节点：

[确定性骨架 / 代码控制]
用户输入
  → 意图分类（Routing 模式，代码确定性路由）
  → 路由到对应分支
  → [Agent Node: 用 ReAct 做动态工具调用]
  → 结果交回骨架
  → 安全检查（Evaluator 模式，代码触发）
  → 输出

骨架是代码，不是 LLM。LLM 只在"需要判断力"的节点被调用。控制权永远在代码手里，LLM 是被借调过来的专家，用完了控制权交回去。

2026 年 4 月 Graph Digital 的一篇企业部署分析把这个讲得很透：这不是两种方案之间的折中。这是当前的主流生产架构。Workflow 提供可靠性、可审计性和运营可预测性。Agent 在真正需要判断力的节点提供适应性推理。两者都不能替代对方。

第四章：多 Agent——以及为什么你大概率不需要它

4.1 三种架构模式，只有一种活在生产里

Hub-and-Spoke（Supervisor 模式）：一个中央 Supervisor 接收请求、分配任务、综合结果。Workers 之间不直接通信。2026 年生产环境中最常见的多 Agent 架构——原因是它是唯一能被调试的。

Flat Mesh（对等网络）：Agent 之间自由通信，没有中央协调者。学术论文里常见，生产环境里几乎不用。你没法审计、没法限权、出了问题没人知道谁做了什么决定。

Hierarchical（层级式）：多层 Supervisor 树，大型企业跨部门场景用。BASF Coatings 的 Marketmind 就是这种——每个事业部有自己的 Supervisor，上面还有一个公司级 Orchestrator。

4.2 什么时候真的需要多 Agent

只有三个条件同时满足时才考虑：

条件一：单 Agent 的 context window 装不下所有工具和知识。经验阈值是工具超过约 30 个时，模型选对工具的能力开始断崖式下降。

条件二：不同领域需要完全不同的 system prompt、人格、权限边界。金融分析 Agent 和闲聊 Agent 的安全约束完全不同，放在一个 Agent 里会互相污染。

条件三：你有评测体系来证明多 Agent 比单 Agent 更好。没有评测就上多 Agent，等于赌博但不看牌。

只满足一两个条件不算。满足第一个？试试 Tool Loadout（动态加载相关工具子集）。满足第二个？试试 Routing + 切换 system prompt。

4.3 MCP 和 A2A：多 Agent 的通信基础设施

2026 年多 Agent 讨论绕不开两个协议：

MCP（Model Context Protocol），Anthropic 2024 年 11 月发布，2025 年 12 月捐赠给 Linux Foundation 的 Agentic AI Foundation（AAIF）。解决的是 Agent ↔ 工具的通信标准化。截至 2026 年，MCP 月下载量超过 9700 万，被 OpenAI、Google、Microsoft 全部采纳。你可以理解为 AI 时代的 USB-C——一次适配，所有 Agent 通用。

A2A（Agent-to-Agent Protocol），Google 2025 年 4 月发布，2026 年初发布 v1.0。解决的是 Agent ↔ Agent 的通信标准化。MCP 让 Agent 能用工具，A2A 让 Agent 能和其他 Agent 协作——发现彼此的能力、委托任务、共享状态。目前 150+ 组织在生产中使用，包括 Salesforce、SAP、ServiceNow、Deutsche Bank。

一个类比：MCP 是 USB 接口（连接设备和外设），A2A 是 HTTP（连接设备和设备）。前者解决"Agent 怎么用工具"，后者解决"Agent 怎么和别的 Agent 说话"。两者是同一个通信栈的两层，不是竞品。

对做产品的人来说：如果你的系统只需要一个 Agent + 多个工具，MCP 够了。如果你需要多个独立 Agent 之间协作，才需要考虑 A2A。绝大多数产品在 2026 年还不需要 A2A。

第五章：Harness Engineering——2026 年真正的战场

如果说前四章讲的是"怎么选架构"，这一章讲的是 2026 年真正在决定 Agent 产品生死的东西。

5.1 Agent = Model + Harness

Viv Trivedy 在 2026 年初提出了一个后来被 Anthropic、OpenAI、Google 的工程博客反复引用的公式：Agent = Model + Harness

模型是引擎。Harness 是引擎之外的一切——prompt 结构、工具定义、context 管理策略、生命周期钩子、评估循环、安全护栏、跨 session 的状态持久化。

如果你不是模型提供商，你做的就是 Harness。

这不是一个新概念——它只是给"围绕模型的所有工程"取了一个名字。但命名的力量在于它让行业终于开始认真对待这个部分。

5.2 Anthropic 的长时运行 Agent 实验

Anthropic 在 2026 年 3 月的 harness 博客里分享了他们让 Claude 自主开发一个完整 Web 应用的实验。结论非常清醒：即使是 Opus 这种前沿模型，用 Claude Agent SDK 在多个 context window 之间循环，如果只给一个高层目标（如"构建一个 claude.ai 的克隆"），也无法交付一个生产级的 Web 应用。

失败模式有两个：

第一，Agent 试图一次搞定所有事——在一个 context window 里实现整个应用。context 用尽时，功能写了一半，没有文档，下一个 session 的 Agent 不知道前一个 session 做到了哪里。

第二，Agent 把功能标记为"完成"但不做端到端测试。它写了代码，甚至跑了单元测试，但没有作为用户真正操作一遍来验证功能是否可用。

解法不是换更强的模型。解法是设计一个更好的 Harness：

Initializer Agent：第一次运行时做环境搭建，把高层目标拆成具体的 feature list，生成 claude-progress.txt 记录当前状态
Coding Agent：每次 session 只做一件事（一个 feature），做完了提交代码并更新进度文件
Context Reset：不是 compaction（压缩历史），而是完全重置 context，让下一个 Agent 从干净的上下文开始，只通过进度文件和 git 历史了解"之前做了什么"

Anthropic 还发现了一个微妙但重要的现象：context anxiety（上下文焦虑）。Claude Sonnet 4.5 在感知到 context window 快满的时候，会提前收尾——即使任务还没完成。compaction 解决不了这个问题，因为压缩后模型仍然意识到自己的历史很长。完全重置才能治好这个"焦虑"。有趣的是，后来他们在 Claude Opus 4.5 上测试，这种焦虑行为消失了——这意味着harness 的某些组件是模型特定的，模型升级后需要重新评估。

Anthropic 工程师在文末写了一句：随着模型改进，有趣的 harness 组合空间不会缩小——它会移动。

这句话值得反复品味。它意味着 harness engineering 不是一个临时的补丁，而是一个持续存在的工程学科。模型解决了旧问题（context anxiety 消失了），但开启了新能力（可以处理更长时间任务），新能力带来新的失败模式（多天记忆策略、多 Agent 协调），又需要新的 harness 设计。

第六章：怎么不成为那 88%

7.1 一套立刻能用的判断框架

在你写第一行代码之前：

Step 1 · 画用户旅程，标出每一个需要 LLM 的节点。 不是画架构图——是画用户怎么用你的产品。

Step 2 · 对每个节点问一个问题：“这个节点，LLM 需要自己决定下一步做什么吗？” 如果答案是"不需要，步骤是可以穷举的"——用 Workflow。如果答案是"需要，用户的输入太开放了"——那才是 Agent 的地盘。

Step 3 · 用 Workflow 做骨架，用 Agent 做关节。 骨架提供结构和可预测性，关节提供灵活性和适应性。

Step 4 · 选推理循环。 简单动态任务用 ReAct。复杂多步 + 需要审计用 Plan-and-Execute。现实中几乎一定是 Hybrid——Plan-and-Execute 做高层规划，每个步骤内部用 ReAct 做执行。

Step 5 · 确认你不需要多 Agent。 三个条件同时满足才上。

Step 6 · 设计 Harness。 进度文件、context reset 策略、独立 Evaluator、生命周期钩子、可观测性。这些东西的重要性不亚于选对模型。

Step 7 · 评测。 没有评测的架构选择是赌博。Digital Applied 调查里，成功上线的那 14% 的企业，在评测基础设施上的投入比例显著高于失败的那些。

7.2 给技术尽调的四个问题

如果你在评估一个 AI 产品或创业项目：

Q1：“你的系统里，Workflow 占多少，Agent 占多少？”

好答案：“80% 是 Workflow，Agent 只在三个需要动态判断的节点使用。”

坏答案：“我们整个系统就是一个大 Agent。”

Q2：“Agent 部分的平均步数和方差是多少？”

如果创始人答不上来，说明他们没在追踪 Agent 的行为分布。一个健康的 Agent 系统，步数的均值和方差都应该是可控的。

Q3：“你的 Harness 里有什么？”

好答案会提到进度持久化、独立评估、context reset、工具调用监控。坏答案是"我们用了 LangGraph"——框架不是 harness。

Q4：“模型升级后，你的系统需要改什么？”

这个问题测试他们对 harness 和模型耦合度的理解。好答案："上次 Claude 升级后我们去掉了 context anxiety 的 workaround，加了一个新的长任务分解策略。"坏答案：“换个 model ID 就行了。”

7.3 一个反直觉的观察

最后分享一个我在研究这个主题时越来越确信的观察。

过去两年，行业里有一个隐含假设：架构复杂度 = 技术先进度。用了多 Agent 比单 Agent 高级，用了 Agent 比 Workflow 高级。

这是错的。

架构复杂度 = 你为了解决特定问题不得不付出的代价。 每一层复杂度都有成本——调试成本、运维成本、认知成本、招人成本。好的工程不是"用了最复杂的技术"，而是"用最简单的技术解决了问题"。

在 2026 年成功部署 Agent 的公司，不一定有最精巧的 Agent 架构。他们是那些尽早意识到编排才是把 Agent 能力变成真实业务可靠性的东西的人。

换句话说——Agent 的价值不在 Agent 本身。在 Agent 周围。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

一文看懂：Skill 和 MCP，到底有什么不一样？

MCP技术社区

告别高额AI账单：Chrome-devtools MCP浏览器自动化实战

MCP技术社区

解密 MCP：开启 AI 与数据交互的新标准

Model Context Protocol（MCP）是一种开放的、与模型无关的通信协议标准，它定义了 AI 模型（尤其是大语言模型 LLM）与外部数据源、工具服务之间进行安全双向交互的统一规范。简单来说，MCP 的目标就是做 AI 世界的「USB 标准」：就像 USB 接口让任何设备都能通过统一方式连接电脑一样，MCP 让任何数据源和工具都能通过标准化的协议连接到任何 AI 助手。一次开发，处处