【摘要】针对当前 AI Agent 生产落地中普遍存在的多轮人工调试、效率低于手动操作的问答循环困境,系统梳理 AI 工程领域从提示词、上下文、防护架构到循环机制的四层技术演进路径,结合行业一线实践拆解 Loop Engineering 的核心架构、标准执行流程与开源生态,为技术团队提供从人工问答到自主闭环的可落地方案。

引言

AI Agent 正在从概念验证快速走向生产落地,几乎所有技术团队都在尝试将大模型能力嵌入研发、运维、运营等核心工作流。真实落地过程中,绝大多数团队都陷入了相似的效率陷阱:工程师需要反复将报错信息、测试结果、审查意见反馈给 Agent,经过五六轮甚至更多轮调试才能完成一个简单任务,整体耗时甚至超过纯手动操作。Agent 能够生成单次方案,却无法自主验证方案有效性、根据反馈修正问题、自主推进任务到最终交付,始终停留在 “高级问答工具” 的层面。

这一困境的本质,是当前 AI 工程的重心仍停留在单次交互优化,没有构建起支撑多步骤自主执行的闭环机制。从 2025 年底开始,行业内开始出现 Loop Engineering 的实践方向,通过设计自动化循环机制,让 Agent 能够自主完成从问题识别到最终交付的全流程。2026 年 6 月,Peter Steinberger 在社交平台的观点引发行业广泛共鸣:“你不应该再给编码 Agent 写提示词了,你应该设计循环来提示你的 Agent。” 这条内容获得超 800 万次浏览,标志着 Loop Engineering 正式从少数人的实践走向行业共识。

本文系统梳理 AI 工程的四层技术演进脉络,拆解 Loop Engineering 的核心架构、标准流程与落地方法,结合主流开源项目的实践经验与一线从业者的真实踩坑记录,为技术团队提供可落地的参考路径。本文适合 AI 架构师、后端研发工程师、技术管理者以及所有关注 Agent 生产化落地的从业者阅读。

一、四层技术演进:从单次交互到自主闭环的范式跃迁

AI 工程的发展不是技术的线性迭代,而是逐层包裹的范式升级。每一层技术都在解决上一层的核心局限,同时将人类对 AI 的管控点向更抽象的层级迁移。四层技术之间不是替代关系,而是基础与延伸的关系,上层架构建立在下层能力的基础之上。

1.1 第一层:Prompt Engineering

Prompt Engineering 的核心问题,是如何向模型提问以获得更好的输出。这一阶段的核心假设是模型能力固定,输出质量的核心变量是提问的方式与内容。思维链、少样本学习、角色设定、格式约束等技巧,都是围绕这一核心假设衍生的实践方法。

这一层级的技术将大模型从 “随机生成器” 变成了可控的内容生产工具,也让大量非算法背景的工程师能够快速利用大模型能力。2023 年 Andrej Karpathy 提出 “最热门的编程语言是英语”,正是对这一阶段特征的精准概括。

但 Prompt Engineering 存在四个结构性的先天局限,决定了它无法支撑复杂任务的自主执行。第一是上下文硬限制,无论模型上下文窗口扩展到多大,提示词的长度始终存在物理上限,且过长的上下文会稀释关键信息的注意力权重,反而降低输出质量。第二是无状态遗忘,主流大模型本身不具备持久化记忆能力,每次对话结束后上下文清空,多轮迭代的任务每次重启都需要重新注入背景信息。第三是幻觉与注意力漂移,任务步骤越多、对话轮次越长,模型偏离初始约束的概率越高,精心设计的规则可能在第十步之后就被完全忽略。

最致命的局限是第四点:人始终是循环中的核心决策节点。AI 生成结果后,需要人审核、修改、复制、执行、验证、反馈,整个流程的发动机是人而非 AI。Prompt Engineering 只能优化单次交互的质量,无法构建连续自主运行的任务系统,提示词是接口,而非完整的解决方案。

1.2 第二层:Context Engineering

Context Engineering 的核心问题,是应该让模型看到哪些信息。这一阶段的认知转变,是从纠结措辞转向控制模型推理的信息环境。系统提示定义角色与约束,MCP 协议接入外部工具能力,RAG 技术即时注入检索结果,对话历史维持任务连贯性,这些都是上下文工程的核心手段。

Anthropic 将 Context Engineering 定性为 Prompt Engineering 的自然演化,问题的视角从 “如何问一个好问题” 转向 “如何设计一个好的信息环境”。充足且精准的上下文,能够显著降低模型的幻觉概率,提升输出的领域适配性,也让 Agent 具备了调用外部工具的基础能力。

但 Context Engineering 同样有清晰的能力边界。它解决了信息供给的准确性问题,没有解决任务推进的动力问题。一个配置了完整上下文的 Agent,面对需要多轮迭代、跨会话执行的复杂任务时,依然会卡住。没有人的介入,它无法判断上一步是否成功,无法决定下一步该执行什么操作,也无法在遇到异常时自主调整路径。

同时上下文窗口被填满后,模型会进入 “急于完成” 的状态,出现仓促收尾、质量骤降的现象,也就是行业内所说的上下文焦虑。这一问题仅靠扩展窗口大小无法彻底解决,需要更上层的机制来管控信息的注入节奏。

1.3 第三层:Harness Engineering

Harness Engineering 的核心问题,是应该给 Agent 搭建什么样的运行环境。HashiCorp 创始人 Mitchell Hashimoto 提出了核心洞察:每次 Agent 出错,与其修改提示词让它下次做得更好,不如改变系统结构,让这个错误在结构上无法再次发生。这是从 “调教模型” 到 “设计防错系统” 的根本转变。

Agent 的完整能力等于模型加上 Harness。模型提供推理与生成能力,Harness 则将这种能力转化为可信赖、可重复的生产力。一个完整的 Harness 架构通常包含五个层级,工具编排层定义 Agent 可调用的系统与权限,验证循环层提供每一步输出的机器验证机制,上下文与记忆层实现跨会话的状态持久化,护栏与约束层划定 Agent 的行为边界,可观测性层负责日志、追踪与成本监控。

Harness 架构解决了大量 Agent 的可靠性问题。OpenAI Codex 团队仅三人,在五个月内产出约一百万行生产级代码且零手写,核心支撑就是严格的 Harness 架构约束,而非更优的提示词。但 Harness 本质是静态的基础设施,它搭建好了车间、配置好了工具、制定好了流程,却无法回答动态运行的问题。谁来决定生产目标、谁来验收产出、谁来处理异常情况,这些问题需要第四层技术来解决。

1.4 第四层:Loop Engineering

Loop Engineering 的核心问题,是应该设计什么样的循环机制,让 Agent 能够自主运行。2026 年 6 月 2 日,Claude Code 作者 Boris Cherny 在行业活动中公开表示:“我不再给 Claude 写提示词了。我有循环在运行,它们自己给 Claude 发指令,自己决定下一步怎么做。我的工作是写循环。”2026 年 6 月 7 日,Google 工程总监 Addy Osmani 正式命名这一领域,并给出明确定义:替代人成为提示 Agent 的角色,由系统来完成对 Agent 的调度与反馈。

Harness 是静态的运行环境,Loop 是动态的运行机制。Harness 搭建好了生产车间,Loop 则是完整的排班、执行、验收、异常处理制度,决定每个周期的生产目标、任务分配方式、验收标准与异常处理流程。Loop Engineering 的本质,是将人和 AI 的协作模式从 “问答式交互” 升级为 “闭环式自动化”,不再是人问一句 AI 答一句,而是人给出目标,系统自主跑完全流程。

这一层级的出现,是 AI 工程从 “工具辅助” 走向 “自主系统” 的关键转折点。它不依赖模型能力的突破,而是通过工程架构设计,释放出大模型本就具备的推理与执行潜力,让 Agent 真正成为能够独立完成任务的主体。

表格

技术层级

核心问题

核心能力

人的角色

AI 角色

核心局限

Prompt Engineering

如何提问获得好输出

优化单次交互质量

提问者、反馈者

回答问题、生成内容

无法支撑多步任务,人是循环核心

Context Engineering

给模型看什么信息

构建精准信息环境

信息架构师

基于信息生成结果

无自主推进能力,存在上下文焦虑

Harness Engineering

给 Agent 搭什么环境

提升执行可靠性

系统设计者

在约束环境中工作

静态架构,无法自主调度与决策

Loop Engineering

设计什么循环让 Agent 自主跑

实现任务全闭环

目标制定者、关键决策者

自主完成全流程任务

结构静态,跨循环协调依赖人

很多团队会有疑问,是不是有了 Loop Engineering,前面三层技术就失去了价值。答案是否定的,四层技术是层叠关系,Loop Engineering 建立在前三层的基础之上。没有高质量的提示词、精准的上下文供给、可靠的运行环境,循环机制再完善也无法产出合格的结果。每一层技术都有其不可替代的价值,上层技术是对下层能力的封装与放大,而非替代。

二、破局点:为什么 Loop 是 Agent 落地的核心

判断一项技术是否具备生产价值,最直接的方式是对比引入前后的工作流差异。我们以修复数据库慢查询这类典型的多轮迭代任务为例,通过流程图直观对比两种模式的运行逻辑与效率差异。

2.1 传统 Agent 工作流:人作为循环发动机

没有 Loop 机制的支撑下,完成一个慢查询优化的典型流程包含多个依赖人工推进的节点。首先由工程师识别问题,打开 AI 助手输入需求与相关上下文;AI 生成优化方案后,工程师复制代码到本地执行测试;测试报错后,工程师整理报错信息贴回对话,AI 再调整方案;调整后再次执行测试,测试通过后提交代码审查,审查提出修改意见,工程师再反馈给 AI。整个过程需要循环往复,直到所有环节通过,或者工程师放弃手动完成。

这种模式的核心特征是每个环节都需要人手动推进,AI 只是辅助工具,人才是整个循环的发动机。人一旦离开工位,整个流程就会停滞。Agent 不记得历史对话、不熟悉项目规范、不了解之前踩过的坑,每次任务都相当于从零开始。这也是很多团队感觉 “用 AI 还不如自己写快” 的核心原因,人工衔接的成本抵消了 AI 生成的效率收益。

2.2 Loop 驱动工作流:目标导向的自主闭环

引入成熟的 Loop 机制后,同样的任务流程会发生本质变化。工程师只需要在代码仓库提交 Issue,明确优化目标与约束条件,Loop 就会自动识别任务并触发处理流程。Loop 会自动加载项目的完整上下文,包括代码库结构、历史优化记录、团队代码规范、测试流程;随后在隔离环境中完成问题分析、代码修改、本地测试;测试通过后,Loop 会调度独立的验证子 Agent 进行代码审查;验证通过则自动提交 PR,未通过则自主修正后再次迭代;遇到超出权限或风险较高的决策点,Loop 会带着完整的上下文信息升级给人工处理;任务完成后,Loop 会自动记录本次处理的经验,更新项目知识库。

这种模式下,人只在定义目标和关键决策节点介入,其余环节全部自动闭环。下一次遇到同类问题,Loop 可以直接复用历史经验,处理速度会持续提升。整个流程的发动机从人变成了持续运行的循环系统,工程师的工作从 “反复调试 Agent” 变成了 “设计与优化循环机制”。

Boris Cherny 曾总结过长时间自主运行 Agent 的五条核心经验,恰好对应了 Loop 模式的关键设计要点:使用自动权限模式避免反复申请确认;采用动态工作流编排大量子 Agent 协同完成任务;通过目标指令驱动 Agent 持续运行直到完成;云端部署实现离线运行;配套端到端的自验证机制保障产出质量。这五条经验已经成为行业内搭建无人值守 Loop 的通用参考标准。

2.3 效率提升的数据佐证

闭环自动化带来的效率提升已经在多个生产环境中得到验证。Boris Cherny 从 2025 年 11 月起,个人产出的代码 100% 由 Claude Code 完成,每天提交 10 到 30 个 PR。Anthropic 内部数据显示,引入 Loop 化的开发模式后,每位工程师的代码产出增长 200%,PR 合并量增长 67%。公开 GitHub 平台上,约 4% 的代码提交已经由 Claude Code 自动生成。

核心转变在于,工程师不再一轮一轮地手动驱动 Agent,而是设计一个能够自动驱动 Agent 的系统。 这种角色的转变,是 AI 生产力从加法效应走向乘法效应的关键拐点。

三、“智能办公室” 分析框架:Loop 系统的核心原语

理解 Loop Engineering 最好的方式,是类比真实运转的办公室。一个高效的办公室本身就是一套成熟的循环系统,有明确的角色分工、流程规范、知识沉淀与异常处理机制。Loop 系统本质上就是将办公室的运转逻辑,通过工程手段自动化为 AI 运行系统。

3.1 办公室角色与 Loop 原语的对应

一个运转良好的办公室,包含前台、工位、档案、通讯、分工、项目记录等核心要素,对应到 Loop 系统中,就是六个核心原语。具体对应关系如下:

办公室角色 / 设施

对应 Loop 原语

核心职责

前台 / 排班系统

Automations/Scheduling

接收任务,自动分配与调度

独立工位

Worktrees

任务隔离执行,互不干扰

档案柜 / 操作手册

Skills

沉淀项目知识、规则与历史决策

电话 / 企业通讯

Plugins & Connectors

对接外部系统,实现能力延伸

部门分工

Sub-agents

不同模块负责不同环节的工作

项目档案柜

Memory/State

记录处理过程、决策与最终结果

这套框架的核心价值,是将抽象的 Loop 技术映射到大家熟悉的组织管理逻辑中。设计一个 Loop 系统,本质上和搭建一个高效的小型团队遵循相同的原则,明确分工、权责清晰、知识沉淀、流程闭环。

3.2 五大核心原语拆解

3.2.1 Automations/Scheduling:自动触发机制

自动触发是 Loop 的心脏,没有调度机制的任务只能算脚本,不能称为循环。触发方式主要分为两类,时间驱动和事件驱动。时间驱动即定时任务,比如每天凌晨扫描依赖更新、每周执行一次代码质量巡检;事件驱动即钩子触发,比如有人提交 Issue 自动启动修复流程、有人发起 PR 自动触发代码审查。

成熟的 Loop 设计通常采用两种触发方式互补的模式,时间驱动负责定期巡检类的任务,事件驱动负责实时响应类的需求。触发机制设计不当的后果不是系统不工作,而是总在不合适的时机运行,比如在产品演示时自动触发重构流程,造成不必要的干扰。

3.2.2 Worktrees:工作树隔离

工作隔离是保障并行能力的基础。当多个 Loop 同时运行时,如果操作同一个工作目录,就会出现互相覆盖、合并冲突的问题,类似两个人同时编辑同一份文档。Git worktrees 机制可以让每个 Agent 拥有独立的工作目录,任务完成后再通过标准的 Git 流程合并回主分支。

这种隔离不只是技术层面的便利,更是结构性的风险保障。单个 Loop 执行失败,不会污染其他 Loop 的工作成果。需要注意的是,Loop 的并行上限往往不是由算力或模型并发数决定,而是由人工审查的带宽决定。再多的 Agent 并行产出 PR,最终都需要人来审核,审查队列的消化速度才是真正的瓶颈。

3.2.3 Skills:项目技能与知识

Skills 是项目意图的持久化载体。通常以 SKILL.md 这类文档的形式存在,编码了项目约定、构建命令、代码规范、领域知识、历史决策等信息。没有 Skills 的支撑,Loop 每次执行任务都需要从零推导规则,持续累积 “意图债务”。

Skills 的核心设计原则是一次编写、多次调用。将团队反复强调的规范、踩过的坑、固定的流程都沉淀到 Skills 文档中,Loop 每次执行任务时自动加载,能够大幅降低出错概率,也避免了每次都在提示词中重复相同的约束。

3.2.4 Plugins & Connectors:外部连接器

连接器是 Loop 接触真实世界的接口。只有对接了真实的业务系统,Loop 的产出才有实际价值。常见的对接系统包括代码仓库、项目管理工具、即时通讯软件、数据库、云服务等。

MCP(Model Context Protocol)正在成为这一层的通用标准协议。它的核心价值是统一了 Agent 调用外部工具的接口规范,无论对接 GitHub、Jira 还是 Slack,都可以通过同一套协议访问。新工具的接入成本从编写一整套集成代码,降低为注册一个 MCP 服务,大幅提升了 Loop 系统的扩展能力。连接器的完整程度,直接决定了 Loop 能够解决的问题边界。

3.2.5 Sub-agents:子 Agent 分工

子 Agent 是 Loop 系统最重要的结构性设计模式。核心原则是执行者不能兼任裁判,负责写代码的 Agent 不能评判自己的工作质量。需要设置独立的验证 Agent,使用不同的提示词、甚至更强的模型,负责对产出结果进行独立审查。

这种 Maker/Checker 分离的架构,是无人值守 Loop 能够安全运行的核心保障。缺少验证环节的循环,会规模化地生产 “自信的错误”,运行速度越快,累积的问题越多。

3.3 记忆系统的三层结构

模型本身不具备跨会话的长期记忆,Loop 系统必须通过持久化存储来维持状态连续性。一个完善的记忆系统分为三个层级,各自承担不同的作用。

最上层是即时状态层,记录本次循环的执行过程、中间结果、当前进度,保障当前循环的执行不偏离方向。中间层是项目知识层,也就是 Skills 文档承载的内容,保障 Loop 的行为符合团队规范与项目约定。最底层是历史经验层,沉淀过去循环中总结的通用规则、踩坑记录与优化方法,保障系统不会在同一个地方反复出错。

很多团队在搭建记忆系统时容易陷入误区,把记忆等同于保存聊天历史。实际上原始的聊天记录只是素材,只有经过提炼、验证、转化为可复用规则的信息,才能真正提升后续任务的效率。

3.4 最小可用循环的四要素

搭建第一个 Loop 不需要复杂的架构,一个最小可用的循环只需要四个核心要素。第一个是触发机制,明确任务什么时候启动;第二个是标准化指令,明确任务的目标与执行规范;第三个是状态文件,记录执行过程与结果;第四个是验证关卡,明确判断任务完成的标准。

搭建 Loop 的正确顺序不能颠倒。应该先手动把任务完整跑通一遍,整理出可复用的执行指令,再封装进循环机制,最后配置自动触发。跳过手动验证直接上自动化,大概率会出现各种预期外的问题,反而增加维护成本。

四、标准 Loop 九步落地流程:从触发到沉淀的完整闭环

我们以 GitHub 上 cobusgreyling/loop-engineering 项目的流程为基础,结合行业通用的最佳实践,拆解标准 Loop 的九个执行步骤。先通过整体流程图掌握完整闭环逻辑,再逐一拆解每个环节的设计要点与风险点。

理解每个步骤的核心不是记住顺序,而是明白每一步解决的问题,以及跳过之后会带来的后果。

4.1 第一步:任务触发

这是整个循环的起点,也是最容易被忽略的环节。很多工程师的第一反应是手动触发就足够,但手动触发的任务本质是脚本,不是循环。Loop 的核心区别在于,系统自己知道什么时候应该启动。

触发方式分为时间驱动和事件驱动两类。时间驱动适用于定期巡检类任务,比如每日依赖安全扫描、每周代码质量检查。事件驱动适用于响应式任务,比如用户提交 Issue 自动触发修复、代码推送自动触发测试与审查。成熟的设计会同时使用两种触发方式,形成 “定期巡检 + 实时响应” 的完整覆盖。

触发机制的设计需要考虑降噪与权限控制。过于灵敏的触发会导致大量无效循环,浪费算力与 token 成本;过于迟钝则失去了自动化的意义。需要根据任务的性质,设置合理的触发阈值与冷却时间。

4.2 第二步:任务分流

任务进入系统后,第一步不是立刻执行,而是进行分类与优先级判断。分流包含两个层面,一是任务类型判断,区分是 Bug 修复、功能开发、依赖升级还是安全补丁,不同类型对应不同的执行流程与审批规则;二是优先级排序,判断哪些任务需要立刻处理,哪些可以排队,哪些直接拒绝处理。

任务分流是整个系统的 “前台”,核心作用是确保每个任务进入正确的处理通道。如果跳过这一步,所有任务都会涌入同一条流水线。一个简单的依赖更新和一个涉及核心架构的重构,需要的资源、审批流程、验证标准完全不同。不加区分直接执行,轻则浪费算力资源,重则让高风险操作绕过必要的审查环节,引发生产事故。

4.3 第三步:读取状态

动手执行之前,Loop 必须先读取当前的系统状态。读取的内容包括当前项目的状态文件、历史执行记录、已知问题、团队规范等。这些信息决定了 Loop 的执行不是从零开始的盲目操作,而是基于历史经验的有序推进。没有状态读取的 Loop,就像从不看项目文档的新人,每次都会重复踩同样的坑。

一个设计良好的状态文件,应该能够清晰回答三个问题:当前任务进展到哪一步?之前尝试过哪些方案、结果如何?有哪些事项正在等待人工处理?

4.4 第四步:工作隔离

正式执行前,需要为本次任务创建独立的工作目录,也就是 Git worktree。这一步解决的是并发冲突问题。多个 Loop 同时运行时,如果共享同一个工作目录,会出现代码互相覆盖、合并冲突频发的问题,严重时甚至会破坏主分支的代码。

每个任务对应一个独立的工作目录,执行完成后通过标准的分支、PR 流程合并回主分支,既保障了并行执行的安全性,也符合常规的代码管理规范。这种隔离机制同时也是一种风险屏障,单个 Loop 执行失败甚至出现破坏性操作,都不会影响主仓库的稳定性。

这里需要注意一个容易被忽视的瓶颈:审查带宽。系统可以轻松启动十个并行的 Loop 同时工作,但产出的十个 PR 最终都需要人工审核。如果团队的审查能力有限,再高的并行度也无法转化为实际产出,只会造成任务堆积。

4.5 第五步:执行落地

这是 Loop 的核心执行环节,由一个独立的子 Agent 根据分流结果与加载的上下文,实际完成任务工作。它负责编写代码、修改配置、执行脚本,将 “要做什么” 的目标转化为 “已经做完” 的产出。

采用子 Agent 而非主 Loop 直接执行,有三方面的设计考量。第一是上下文隔离,主 Loop 保留全局调度视角,子 Agent 只需要在聚焦的上下文中工作,避免信息过载导致的注意力漂移。第二是模型选择灵活,执行环节可以用速度快、成本低的模型,验证环节可以用能力强、精度高的模型,实现成本与质量的平衡。第三是支持并行执行,主 Loop 可以同时调度多个子 Agent 处理不同任务,提升整体吞吐量。

子 Agent 的行为边界完全由 Skills 定义,包括可调用的工具范围、必须遵守的规范、需要暂停请示的场景。缺少 Skills 约束的子 Agent,就像没有操作手册的新人,可能会做出各种超出预期的操作,可靠性无法保障。

4.6 第六步:独立验证

这是整个 Loop 架构中最关键的设计决策:执行者不能验证自己的工作。这不是管理建议,而是必须遵守的结构性约束。

大模型存在系统性的自我确认偏差。当模型刚完成一段代码编写,它会被自己的输出锚定,审查时会倾向于认可自己的逻辑,对明显的错误视而不见。这不是模型能力不足,而是上下文的惯性导致的,刚写完的逻辑占据了工作记忆,检查时会自然顺着自己的思路走。

因此验证环节必须由独立的子 Agent 承担,运行在完全干净的上下文中。它看不到实现过程,只能看到最终产出和验收标准。验收标准必须来自预先定义的客观规则,包括测试用例、代码规范、安全要求等可逐条检查的条目,而不是模糊的质量评价。

如果缺失或弱化验证环节,Loop 会规模化地生产 “自信的错误”。运行速度越快,累积的错误越多,而且每次系统都认为自己的输出没有问题。

4.7 第七步:机器验收

除了 AI 的主观验证,Loop 还需要一层确定性的机器验证。测试套件、类型检查、静态扫描、编译构建,这些都是不可谈判的硬门槛。通过就是通过,不通过就是不通过,不存在模糊空间。

这一层的设计原则是,能用机器判定的内容,绝不依赖 AI 判断。AI 可以评估架构合理性、代码可读性这类偏主观的内容,但测试通过率、编译是否成功、有无新增静态扫描报错这类客观标准,交给确定性程序执行的可靠性远高于另一个大模型。

验收门的设置需要平衡松紧度。门槛太松,不合格的代码会流入下游;门槛太严,Loop 永远无法通过验证,持续空转消耗资源。成熟的策略是分级设置验收门,编译与核心测试设置为硬门槛,不通过不能进入下一环节;代码风格、注释规范设置为软门槛,不通过可以继续但必须后续修复;性能指标、复杂度指标设置为观察门,只记录数据不阻断流程。

4.8 第八步:系统对接

验证通过之后,产出需要同步到真实的业务系统中才能产生价值。这一步是 Loop 与外部世界的接口,包括提交 Git 提交、创建 Pull Request、更新项目管理工单、发送通知消息、触发下游 CI 流水线等。

MCP 协议正在成为这一层的事实标准。它的价值不在于对接某一个具体工具,而在于提供了统一的接口规范。所有外部工具都可以通过 MCP 服务接入,Agent 不需要针对每个工具单独开发适配逻辑。新工具的接入成本大幅降低,Loop 系统的能力边界可以快速扩展。

缺少这一步的 Loop 只是封闭沙箱中的演示系统。流程跑得再顺畅,产出落不到真实系统中,就无法产生实际的业务价值。

4.9 第九步:人工决策与状态沉淀

这是整个流程的分叉点,也是闭环的收尾环节。Loop 需要在这一步判断,当前任务是否可以自主收尾,还是必须升级给人工决策。判断的核心依据不是 “能不能做完”,而是 “出问题的后果能不能兜住”。比如修改一行配置,回滚成本很低,可以自动通过;涉及数据库表结构变更,影响范围广、回滚难度大,就必须人工确认。

好的升级机制不是简单抛出一句 “需要确认”,而是带着完整的上下文升级。提交给工程师的信息应该包括:做了什么改动、为什么这么改、验证结果如何、存在哪些潜在风险、推荐的操作是什么。工程师拿到的是一个信息充分的审批题,只需要做判断,不需要从头梳理上下文。

判断结果分为两个分支。需要人工介入的,Loop 暂停在当前节点,等待人工决策后继续执行。暂停不是系统缺陷,而是刻意的安全设计,也是 Loop 比无限制自动化更安全的核心原因。不需要人工介入的,自动执行提交合并。即使是自动提交,也必须保留完整的审计日志与决策链路,出现问题可以回溯到具体的循环、判断依据与执行时间。

无论走哪条分支,最终都需要将本次循环的执行过程、决策结果、经验教训写入状态文件,完成知识沉淀。缺失这一步,下次触发循环时,系统不知道上次的工作进度与经验,要么重复劳动,要么重复踩坑。

九个步骤共同构成了完整的认知闭环:感知(触发 + 分流)→ 理解(读取状态)→ 隔离(工作树)→ 执行(实现子 Agent)→ 验证(验证子 Agent + 机器测试)→ 对接(外部系统)→ 决策(人工判断)→ 产出(提交或升级)→ 记忆(写入状态)。跳过任何一个步骤,都会在对应维度引入风险,具体对应关系如下:

跳过环节

对应后果

任务分流

所有任务涌入同一管道,高风险操作可能绕过审查

读取状态

每次任务从零开始,不吸取历史教训,重复踩坑

工作隔离

并发任务互相覆盖,合并冲突频发

独立验证

自我确认偏差放大,规模化产出自信的错误

机器验收

客观错误依赖 AI 主观判断,可靠性下降

人工决策

要么过度自动化引发风险,要么事事升级失去自动化意义

状态写入

跨迭代连续性断裂,下次触发没有记忆

一个设计优秀的 Loop,不需要每个环节都做到极致,只需要每个环节都刚好覆盖,没有明显的短板与漏洞。

五、开源生态全景:从方法论到企业级治理的完整技术栈

Loop Engineering 的快速发展,已经催生出分层明确的开源技术生态。不同项目分别覆盖方法论规范、治理框架、技能体系、领域应用四个层级,团队可以根据自身落地阶段与需求,选择对应的工具与参考方案。四个代表性项目并非互相竞争的关系,而是各自占据生态的不同位置,共同构成了从入门到规模化落地的完整路径。

5.1 cobusgreyling/loop-engineering:方法论与模式库

作为 Loop Engineering 领域最具影响力的方法论文档,cobusgreyling/loop-engineering 是多数团队入门的首选参考。这个仓库不止是代码集合,更是一套经过生产验证的实践指南,收录了 7 个覆盖不同场景的生产级 Loop 模式,从简单的定时巡检任务到复杂的多 Agent 协作流程都有对应的实现参考。

项目同时提供 3 个 CLI 工具,支持开发者在命令行中直接管理循环的启动、暂停与状态查看;附带完整的安全指南,涵盖权限最小化、密钥定期轮换、全链路审计日志等生产环境必备的管控要求;还整理了大量真实的失败案例,包括 Ralph Wiggum 无效循环、过度烘焙导致的质量下降等常见翻车模式,帮助团队提前规避风险。

它提出的五原语框架已经成为行业内的通用参考模型,核心主张非常明确:Loop 工程的核心目标,是替代人成为提示 Agent 的角色,由设计者构建一套系统来完成对 Agent 的调度与反馈。用智能办公室模型来对应,这个仓库就是办公室的管理制度手册,定义了角色分工、流程规范与异常处理的通用规则。

5.2 loopengine/loop-engine:企业级治理框架

loop-engine 定位为企业级的 Loop 治理框架,提供完整的 SDK、执行者模型、信号机制与适配器模块,原生兼容 Vercel AI SDK、OpenAI、Anthropic 等主流大模型后端,适合需要规模化落地多套 Loop 系统的中大型团队。

它的核心创新是 wrapTool 治理模式,给所有 AI 工具调用包上一层统一的治理循环。团队可以根据操作的影响等级设置差异化的审批规则,比如高影响操作强制人工审批,低影响操作自动放行,从架构层面解决了 “AI 自主行动的边界在哪里” 这个核心问题。

项目官方提供了从入门到高级的多个生产级示例,入门级的费用审批循环实现了基础的人工审批流;中级的智能补货循环结合了 AI 推荐与人工审批门;高级的基础设施变更审批循环加入了爆炸半径分析与 SRE 审批环节;欺诈审核循环则实现了 AI 初筛加条件升级人工的完整链路。

它的核心设计思想并非追求全自动化,而是高自动化比例配合关键节点人工审批。人保留最终决策权,AI 承担全流程的执行权。对应到智能办公室模型,它就是办公室的分级审批系统,明确不同等级事项的审批权限与升级规则。

5.3 obra/superpowers:标准化 Agent 技能体系

obra/superpowers 是目前生态中最成功的 Agent 技能框架,在 GitHub 拥有超 22 万星标。项目由 Request Tracker 作者 Jesse Vincent 主导打造,内置 14 个标准化技能模块,覆盖完整的软件开发生命周期,核心目标是强制 AI 遵循专业的工程开发流程。

项目定义了七阶段标准开发工作流,从头脑风暴、工作树创建、方案规划、代码执行、测试验证、代码审查到最终收尾,每个环节都有明确的执行规范。它的核心创新是子 Agent 驱动开发模式,每个任务分配一个全新的子 Agent 独立执行,并设置两级审查机制,一级验证代码与需求规格的符合性,一级验证代码质量与规范符合性。

框架强制推行测试驱动开发流程,严格遵循红 - 绿 - 重构的执行顺序,先编写测试用例,再实现功能代码,最后进行重构优化。不符合流程的输出会被系统强制退回,从机制上保障产出质量。项目目前跨平台支持 Claude Code、Cursor、Codex 等多种主流 AI 开发工具,2026 年 1 月正式进入 Anthropic 官方插件市场。

用智能办公室模型解读,它就是办公室的标准化员工培训体系,给执行者明确的操作规范与流程标准,确保即使是基础能力的 Agent,也能遵循专业流程产出合格的结果。

5.4 autoresearch-skill:研究场景的 Loop 延伸

autoresearch-skill 项目受 Karpathy 提出的 autoresearch 理念启发,展示了 Loop 机制在研发场景之外的应用可能。它证明了不只是工程开发任务可以 Loop 化,研究分析类任务同样可以通过循环机制实现自动化。

给定一个明确的研究目标,系统可以自动完成资料检索、信息筛选、内容分析、结论总结、迭代优化的全流程,直到得出可靠的研究结论,或者遇到需要人工判断的关键节点再升级介入。这个项目的价值在于验证了 Loop 机制的通用性,只要具备明确目标、可验证标准、多步骤迭代特征的任务,都可以通过 Loop 架构实现自动化。对应到智能办公室模型,就是把 Loop 机制从工程部门扩展到了研究部门,底层循环逻辑一致,只是具体的工作内容与验证标准不同。

5.5 生态分层与选型参考

四个项目分别占据了 Loop 技术栈的不同层级,团队选型时不需要追求大而全,可以根据自身的落地阶段与需求场景选择对应的工具。

表格

生态层级

代表项目

核心定位

适用阶段

方法论层

cobusgreyling/loop-engineering

模式库与开发规范

方案设计、团队入门

框架层

loopengine/loop-engine

治理框架与 SDK

企业级规模化落地

技能层

obra/superpowers

可组合的技能生态

研发场景标准化

应用层

autoresearch-skill

领域 Loop 实现

特定场景定制落地

入门阶段可以先参考方法论项目,在单个业务场景跑通最小可用循环;需要多场景规模化落地时,再引入统一的治理框架;研发类场景可以对接成熟的技能体系,减少重复开发;垂直领域的特殊需求,可以基于现有框架定制开发专属的 Loop 应用。

六、落地关键问题:边界、避坑与设计原则

Loop Engineering 不是万能的解决方案,它有明确的适用边界与常见的失败模式。很多团队落地效果不佳,不是因为技术本身的问题,而是没有选对适用场景,或者在核心设计环节出现了偏差。

6.1 适用边界:什么样的任务值得 Loop 化

不是所有任务都适合做 Loop 化改造。四个必要条件缺一不可,否则搭建与维护的成本很容易超过自动化带来的收益。

第一是足够的重复频率,通常每周至少重复一次的任务才值得自动化,搭建成本需要靠反复运行来逐步摊平。一次性或者低频任务,手动完成的效率反而更高。第二是结果可自动验证,必须有测试、编译、规则检查这类明确的客观判断标准。如果结果好坏全靠人主观判断,那最终还是需要人每轮介入,失去了闭环的意义。第三是可承受的 token 预算,循环运行必然会存在空转与无效尝试,按量计费的模式下成本会随迭代次数上升,需要提前做好成本管控。第四是完备的工具支持,Agent 需要具备执行测试、查看日志、提交变更的完整权限与工具能力,否则循环会卡在执行环节无法推进。

很多团队会问,日常工作中零散的小任务能不能做 Loop。答案是可以先做半自动化,只封装固定的执行步骤,保留人工触发与最终验收,等跑通验证后再逐步升级为全自动化循环。

6.2 典型翻车模式

落地过程中有几类非常典型的失败模式,多数团队都会在不同阶段遇到。

第一种是无验证循环,也就是缺少独立的验证环节,执行者自己判断自己的工作是否合格。这种循环会规模化产出 “自信的错误”,运行速度越快,累积的问题越多,而且每次系统都认为自己的输出没有问题。等到人工发现问题时,往往已经积累了大量需要返工的内容。

第二种是无止尽循环,没有设置迭代次数上限与成本上限,遇到卡死的问题时会持续空转消耗资源。常见的场景是测试始终无法通过,Agent 反复修改始终找不到正确方向,没有止损机制就会一直运行下去,产生不必要的成本浪费。

第三种是无隔离循环,多个任务共享同一个工作目录,并发运行时互相覆盖代码,产生大量合并冲突。严重时还可能出现任务 A 的修改覆盖了任务 B 的成果,最终导致主分支代码混乱。

第四种是无状态循环,每次运行都从零开始,不记录历史经验与踩坑记录。同一个问题反复出现,循环每次都走相同的错误路径,永远不会从失败中学习优化。

6.3 设计 Loop 的四个核心问题

设计一个可靠的 Loop,本质上是回答四个核心问题。每个问题的答案,都会直接影响循环的可靠性与运行效率。

第一个问题,完成状态由谁判定。不能让执行者同时担任裁判,这是最基础的设计原则。判定权可以交给独立的验证 Agent,可以交给自动化测试,也可以交给人工,但绝对不能让执行任务的 Agent 自己判断是否完成。很多团队初期为了省事让 Agent 自验,最终都会遇到自我确认偏差的问题。

第二个问题,反馈信号从哪里来。高质量的反馈是循环能够持续优化的基础。反馈信号可以来自自动化测试结果,可以来自独立评审 Agent 的检查意见,也可以来自真实的用户行为数据。反馈信号越具体、越客观,循环迭代的效率就越高。模糊的反馈会导致循环在错误方向上反复尝试。

第三个问题,什么时候必须停止。所有循环都必须设置明确的止损条件,包括最大迭代次数、最大 token 预算、风险阈值。没有止损的循环不仅可能造成成本浪费,还可能在错误路径上越走越远,引发更大的问题。止损条件需要根据任务的重要程度与风险等级灵活设置。

第四个问题,记忆如何沉淀与消费。需要明确哪些信息需要持久化存储,在什么场景下会被读取,写入的信息是否经过验证,有没有提炼成可复用的规则。这三个环节任何一个断裂,记忆系统都会变成单纯的日志仓库,无法提升后续任务的效率。

6.4 记忆的递进层次

很多团队搭建记忆系统时,会简单地把保存聊天历史等同于记忆。实际上原始的对话记录只是素材,真正有效的记忆需要完成逐层递进的提炼。

一个完整的记忆回路包含五个步骤:出错并记录现象、分析出错的根本原因、验证诊断的准确性、把结论提炼成通用规则、新任务直接调用规则避免重复踩坑。能力较弱的模型通常只能停留在第一步,记忆库就是一堆错题的集合;能力较强的模型可以走完全部流程,把历史教训转化为可复用的通用规则。

搭建记忆系统时,不要追求保存所有上下文,而要关注信息的提炼质量。只有经过验证、提炼成规则的信息,才具备复用价值。

6.5 两条核心设计原则

有两条经过大量生产验证的设计原则,能够显著提升 Loop 的可靠性与收敛速度。

第一条原则:给验收清单,而非操作步骤。告诉系统需要达到的标准,而不是一步步告诉它该怎么做。模糊的标准比如 “代码质量要高” 会让整个循环无法收敛,换成可逐条检查的验收清单,比如 “核心测试全部通过、无新增静态扫描报错、符合项目代码规范”,循环才能有明确的终止判断标准。

第二条原则:实现者与验证者必须分离。模型的自我批判效果非常有限,它会天然倾向于认可自己刚完成的工作。有效的做法是启动一个独立的验证 Agent,在完全干净的上下文中对照验收标准检查产出。两个 Agent 的上下文完全隔离,甚至可以使用不同的模型,才能真正起到交叉验证的作用。

七、范式延伸:第五层技术会是什么

从 Prompt Engineering 到 Loop Engineering,AI 工程的演化有一条清晰的暗线:每一层都解决了上一层的核心局限,同时又暴露出新的结构性瓶颈。按照这个逻辑推演,Loop Engineering 也不会是最终形态,它的瓶颈之处,就是下一层范式的生长点。

7.1 当前 Loop 的三个结构性瓶颈

当前的 Loop 系统存在三个难以靠自身优化解决的结构性问题。

第一个瓶颈是 Loop 不能设计自己。所有的触发条件、流程步骤、验收标准、升级规则,都需要人来预先定义。Loop 跑得再快,它的结构本身是静态的。如果业务逻辑变化、团队规范调整,或者 Loop 自身运行中发现了更优的执行路径,它都无法完成自我重构,只能等待人来修改。

第二个瓶颈是 Loop 之间无法自然协作。一个团队内部可能同时运行代码质量循环、安全扫描循环、依赖更新循环等多套系统,它们各自独立运行,互相不知道对方的动作。代码质量循环重构了一段代码,安全扫描循环可能发现引入了新的漏洞,依赖更新循环又修改了同一个文件的版本。单个 Loop 的闭环能力再强,多个 Loop 之间的协调仍然依赖人工。

第三个瓶颈是 Loop 不会质疑目标。Loop 擅长优化 “怎么把事情做好”,但从来不会问 “这件事该不该做”。给它一个优化慢查询的目标,它就会持续优化,哪怕整个数据表本来就应该废弃。给它一个修复 Bug 的需求,它就会反复调试,哪怕修复的成本远高于重写的成本。这本质上是古德哈特定律的体现:Loop 会严格优化你给出的指标,而不是你真正想要达成的目标。

这三个瓶颈共同指向同一个方向:当前的 Loop 缺少元认知能力,也就是对自身、对同伴、对目标的反思与调整能力。

7.2 形态一:Meta-Loop 自设计的循环

针对 Loop 无法自我优化的瓶颈,第五层范式可能出现 Meta-Loop,也就是能够设计与优化循环的循环。它的核心问题从 “如何设计循环执行任务” 变成了 “谁来设计循环本身”。

当前的模式是人设计 Loop,Loop 执行任务。Meta-Loop 的模式是 Loop 观察自身运行数据,自主调整结构与规则,改进后的 Loop 继续执行任务。这不是抽象的递归概念,而是有明确实现机制的工程闭环。

具体的实现路径包含四个环节。首先是性能监控,每个 Loop 持续记录自身的运行指标,包括任务成功率、空转比例、token 消耗、人工介入频率、修复后回退率等。其次是瓶颈定位,Meta-Loop 分析这些指标,识别结构性的问题,比如 80% 的人工升级都发生在分流环节,说明分流规则需要优化。然后是结构调整,Meta-Loop 不是直接修改底层代码,而是调整 Loop 的配置与规则,比如修改触发条件、重写验收清单、增减执行步骤、调整升级阈值。最后是 AB 验证,修改后的 Loop 先以影子模式并行运行,与原 Loop 的产出做对比,确认有明确改进后再正式替换。

Meta-Loop 与普通 Loop 的核心区别在于,普通 Loop 的结构在设计时就固定了,Meta-Loop 的结构可以在运行中持续演化。这其中也存在明确的风险,Meta-Loop 如果优化 “减少人工介入次数” 这个指标,可能会把高风险操作的升级阈值调到极低,让本该人工判断的操作自动放行。因此 Meta-Loop 的验收标准比普通 Loop 更难制定,它验证的不只是任务有没有做对,更是系统有没有往正确的方向演化。

7.3 形态二:Ecosystem Engineering 多 Loop 协作生态

针对多 Loop 无法协作的瓶颈,未来会演化出 Ecosystem Engineering,也就是 Loop 之间的协作生态工程。当 Loop Engineering 全面普及后,每个团队、每个项目甚至每个开发者都会有自己的 Loop 系统,问题就从 “如何设计一个 Loop” 变成了 “如何让上百个 Loop 不互相冲突”。

这不是简单的规模扩容问题,而是系统协调机制的升级。类比经济学的概念,单个工厂内部的生产调度和管理学相关,上千个工厂之间的资源配置则和经济学相关,后者需要市场机制、价格信号、合约体系来支撑。

Ecosystem Engineering 需要三层基础设施支撑。第一层是协议层,制定 Loop 之间的通信标准。一个 Loop 完成了代码重构,不需要人工转发通知,而是通过标准化的事件总线发布状态变更,订阅的相关 Loop 自动响应处理。第二层是协商层,建立目标冲突的仲裁机制。代码质量循环要做重构,部署稳定性循环要求变更冻结,哪个优先级更高,需要通过优先级声明与仲裁规则来判断,而不是每次都靠人工协调。第三层是信任层,建立可验证的信任链路。一个 Loop 的产出被另一个 Loop 消费时,不需要默认信任对方,而是可以附带完整的验证记录、测试报告、审计日志,消费方可以独立验证产出质量。

目前 loop-engine 的 wrapTool 模式已经在这个方向迈出了第一步,它在单个 Loop 内部建立了治理与信任边界。Ecosystem Engineering 则是把这套逻辑扩展到跨 Loop、跨团队的场景。

7.4 形态三:Intent Engineering 意图的精准校准

针对 Loop 不会质疑目标的瓶颈,最深层的范式演化会走向 Intent Engineering,也就是意图工程。当执行环节被完全自动化之后,意图的准确表达就成了最稀缺的资源。

Prompt Engineering 教开发者说清楚 “做什么”,Context Engineering 教开发者给对 “看什么”,Harness Engineering 教开发者搭对 “在哪做”,Loop Engineering 教开发者设计 “怎么循环”,但所有这些的前提,都是人已经知道自己真正想要什么。现实情况是,很多时候人并没有想清楚真正的目标。以为自己要的是优化查询性能,实际上真正的需求是让用户不再抱怨页面卡顿。前者是可量化的指标,后者是真实的业务意图。指标可以被投机优化,意图不能。

Intent Engineering 要解决的不是 “如何更好地表达意图”,而是如何发现表达出的目标和真实意图之间的差距。它需要三类核心机制。第一类是意图反问,系统接收到目标后,不直接开始执行,而是反向追问目标背后的真实诉求,并给出可能的替代方案,帮助人校准自己的需求。第二类是结果回溯,任务完成后,不只报告任务完成状态,还要评估结果是否真正改善了背后的核心问题。测试全过了,但用户体验没有提升,就说明目标和真实意图之间存在偏差。第三类是意图演化,人的需求不是静态的,随着任务执行和结果反馈,人对问题的理解会不断深化,意图本身也会进化。系统需要能够跟随人的认知迭代,同步调整执行目标,而不是僵化地执行最初的指令。

这也呼应了整个技术演化的底层逻辑:每一次技术升级,本质上都是在释放人的生产力,把人从具体的执行细节中解放出来,去思考更本质的问题。Intent Engineering 就是把 “发现与校准真实目标” 这件事,也从纯人工判断变成系统辅助的工程化过程。

结论

从 Prompt Engineering 到 Loop Engineering,AI 工程经历了四次清晰的范式跃迁。表层是技术手段的不断升级,底层是人类对 AI 的控制权从具体操作向抽象规则的持续迁移。人不再需要关注每一次交互的措辞,不再需要跟进每一步任务的推进,只需要定义清楚三个核心问题:真实的目标是什么、必须遵守的规则有哪些、哪些节点需要人工决策。

Loop Engineering 不是银弹,它不会解决所有 AI 落地的问题,也不是所有场景都适用。它的核心价值是通过工程化的闭环设计,把大模型的推理能力转化为可持续、可复制、可管控的生产力。它是放大器,既能放大团队的工程能力,也会放大流程设计中的缺陷与认知偏差。

在 Loop Engineering 时代,人的价值没有被削弱,反而被提升到了更核心的位置。执行者的角色可以被自动化替代,但目标定义权、规则制定权、关键节点决策权始终掌握在人手中。技术越自动化,对人在问题理解、价值判断、风险把控上的能力要求就越高。这也是所有技术演化的共同规律:工具会接管越来越多的执行工作,而人始终要站在目标与价值的源头。

📢💻 【省心锐评】

Loop Engineering 本质是用工程化手段释放 AI 生产力,核心考验团队对业务流程的抽象能力,而非单纯的模型调优技巧。

SEO 关键词: Loop 工程、AI Agent、闭环自动化、Prompt 工程、多智能体、AI 落地

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐