从原型到上线的 Agent：哪段可以 Vibe，哪段必须 Engineer？

clawdashi

344人浏览 · 2026-06-26 15:53:24

clawdashi · 2026-06-26 15:53:24 发布

先把概念切一刀：Vibe Coding ≠ “用 AI 写代码”

Andrej Karpathy 2025 年 2 月 2 日那条原推的定义是：“完全沉浸在氛围里，拥抱指数级进步，忘记代码本身的存在……我 ‘Accept All’ 从不读 diff，报错信息直接贴回去，通常就好了。” 注意这里的关键动作是"不读代码、不审 diff、靠跑通与否反馈"——这才是原教旨 vibe coding。

字节跳动洪定坤后来提了个重要区分："用自然语言写代码"≠ vibe coding。前者是你用自然语言精确描述编码逻辑和方案，生成完仍然 review、仍然能随时接管；后者才是"点按钮、提需求、跟着感觉走"。讨论 agent 开发前先把这刀切了，否则后面全是鸡同鸭讲。

Agent 开发遇上 Vibe：放大了爽感，也放大了坑

Agent 项目（无论你是撸 LangGraph / Crew / 自研 loop）有几个天然属性：

脚手架高度模板化：agent loop、tool schema、retriever wrapper、vector store 对接——这些 AI 写得飞起，Cursor/Claude Code 一把梭。
非确定性内建：同一段 prompt，跑两次路径不同；“能跑"不等于"对”。
状态与上下文长：多跳推理 + 工具返回 + 中间态，上下文轻松破十万 token。
隐性成本点多：LLM 调用费用、tool 调用超时重试、agent 自循环卡死、eval 覆盖。

这几个属性和 vibe coding 的"不读代码、靠运行反馈"组合在一起，爽点和雷点都被放大：

🟢 放大了的爽点

原型阶段 vibe 出来一个多工具 agent，对个人开发者是小时级的事。以前你要读 LangChain 文档、对着 TypeScript 类型定义调 tool schema，现在"我要一个能搜网页+算价格的 ReAct agent，用 GPT-5，内存用 Redis"——三句 prompt 跑起来。Karpathy 说的 “see stuff, say stuff, run stuff” 在 agent 脚手架层是真的香。

🔴 放大了的坑

坑也比普通脚本深，原因三条：

"能跑"的欺骗性更强。普通脚本跑通 = 大概率逻辑对；agent 跑通 = 可能只是这次 LLM 没抽风。vibe 态度下你不会去写 eval、不会去测 tool 边界，上线后一周才炸。
三阶段衰退曲线在 agent 项目里来得更快。Node.js 那场 1.9 万行 PR 争议里总结过：前期 AI 爆发、中期耦合上来人类成本追平、后期长上下文指令遵循断崖。Agent 项目因为本身上下文就长、状态就多，很多项目在 0.5→0.8 这段就提前进"崩溃期"——不是功能加不动，是 agent 开始"错的地方没改对，对的地方改错了"。
Debug 链路断裂。传统 bug 你读栈；agent bug 你得反过来追：“为什么 LLM 这轮选了 tool B 而不是 A？prompt 哪句歧义了？memory 里哪条历史带偏了？”——vibe 模式下你不读代码，连追都追不动，只能"随机改 prompt 直到它好像好了"，Karpathy 原推自嘲的那句 “ask for random changes until it goes away” 在 agent 场景是直接命门。

那 1.9 万行 PR 争议，对 agent 开发者意味着什么

2026 年初 Matteo Collina 用 Claude Code 搓出 Node.js 内置 VFS 的 1.9 万行 PR，Fedor Indutny 牵头请愿要求禁止 LLM 重写核心模块，Kyle Simpson、Andrew Kelley 实名签——这事表面是开源政治，底下戳中一个更通用的痛点：生成成本趋零，review 成本仍线性。按每行 2 分钟算，1.9 万行 = 90 个工作日。

放到 agent 开发里这个比值更夸张：agent 项目里"生成"的不只是代码，还有 prompt、tool 定义、eval case、路由规则——每样都可能由 AI 吐出来。如果团队全员 vibe、无人收口，reviewer 不是在审代码，是在替你的 token 买单。

怎么评价？给一个不那么骑墙的判断

Vibe coding 下的 AI agent 开发，我的判断是三句话：

Vibe coding 把 agent 从 0 到 0.5 压缩到小时级，但 agent 从 0.5 到 1 那段（可观测、eval、成本管控、tool 边界、回滚）比非 agent 项目更需要硬工程纪律，而不是更不需要。

拆成场景更清楚：

场景	vibe coding 合适度	理由
个人 agent 玩具 / 周末项目	✅ 全场 vibe	炸了也无所谓，爽到就行
内部工具 PoC / 产品原型	✅ vibe 起步	但要留"重写预案"，别直接进生产
面向用户的 agent 功能	⚠️ vibe 生成 + Real Engineering 收口	prompt/tool/eval 必须有人审，observability 必须有
金融/医疗/关键设施 agent	❌ 纯 vibe 禁入	要 multi-agent review + 灰度 + 回滚

这个表里"面向用户的 agent"那一档是多数人实际在的位置——也是 vibe coding 最容易翻车的位置。Apple 那边对 AI 生成 App 的态度已经很明确："AI 写的"不是质量问题的免责声明，agent 上架同理。

真正剩下的东西

2026 年这场争论打到后面，真正浮出来的是一件事：AI 把"写 agent"门槛干到极低之后，agent 工程师的核心价值不再是"能不能让 LLM 吐出一段 loop"，而是"这段 agent 该不该进生产、该不该被长期维护、cost/latency/eval 能不能兜住"。

所以评价 vibe coding 下的 agent 开发，结论不是"爽还是坑"，而是：

原型段：vibe 万岁，不 vibe 才是浪费 AI。
生产段：agent 的非确定性决定了它比普通项目更不能"跟着感觉走"——tool schema 要审、eval 要覆盖、cost guard 要上、trace 要能反查。这一段恰恰是 2026 年多数"agent 创业项目"死掉的原因（能 demo 不能上线）。
护城河：知道什么时候 vibe、什么时候 engineer、哪段 prompt 必须锁版本、哪个 tool 边界必须人工测——这个判断力，模型换十代也不会贬值。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

C++ Qt Creator 20 集成 AI Agent 支持：开启智能编程新纪元

现代 CPU 普遍采用多级缓存架构，通常包含 L1、L2、L3 三级缓存。缓存与主存之间的数据交换不是以字节为单位，而是以固定大小的块为单位，这个块被称为缓存行（Cache Line）。在 x86 架构上，缓存行大小一般为 64 字节，ARM 平台多为 64 或 128 字节。当 CPU 读取某个内存地址时，会将该地址所在的整个缓存行加载到缓存中。如果两个不同的变量位于同一个缓存行内，那么这两个变

MCP技术社区

Agentic Framework（智能体框架）

一套封装好的开发工具库，专门用来构建的 AI 智能体系统。

MCP技术社区

MCP的原理

本文介绍了模型上下文协议（MCP）的原理与应用。MCP通过连接AI模型与外部环境，赋予AI操作工具的能力，使其不仅能回答问题还能执行任务。文章详细解析了MCP的组成部分（Host、Client、Server）、工作流程（注册-使用机制）及底层实现方法，并以Unity场景操作为例说明Agent基于ReAct框架的思考-行动循环过程。作者结合实习经历，指出掌握AI工具和Agent技术已成为现代开发的关