GitHub Trending Today — AI Agent与工作流

irpywp

196人浏览 · 2026-06-18 07:00:00

irpywp · 2026-06-18 07:00:00 发布

本分类聚焦 AI 编程智能体快速演进的生态系统。从 Token 压缩和质量门禁，到多模型协作和持久记忆，这些项目正在构建让智能体更可靠、更高效、更适宜生产环境的基础设施。

No.1

您的 AI 智能体跑了一条命令，返回 500 行日志输出，而它其实只需要其中三行——您却为全部内容支付了足额的 Token 费用。Headroom 在这些冗余打到 LLM 之前就把它削掉了。在输入端压缩工具输出、日志、文件和 RAG 数据块，据称在答案质量不变的前提下减少 60% 到 95% 的 Token 消耗。以库、代理或 MCP 服务器的形式交付，无论您的技术栈如何搭建，都能直接接入。

https://github.com/chopratejas/headroom

No.2

大多数编程智能体要么每两秒问一次权限，要么撒开腿狂奔然后把事搞砸。Gajae Code 在两者之间加入了一套真正的工作流。它是一个外部控制框架（external harness），不是隐藏插件，您在 Codex 或 Claude Code 旁边启动它，它会为智能体铺设一条有章法的路径：一次深度访谈来锁定您真正想要什么，一份经过评审的计划，然后是基于 tmux 的原生执行，大任务还可启用可选的并行工作节点。

https://github.com/Yeachan-Heo/gajae-code

No.3

还在为完成一项任务而同时跑多个 AI 智能体吗？Omnigent 是一款开源的元控制框架（meta-harness），将 Claude Code、Codex 等工具统一管控与组合于一处。设置严格的预算上限，在安全的云端沙盒中运行智能体，与您的团队共享实时会话。一条命令即可部署本地智能体服务器，三种方式同时访问：终端界面（Terminal UI）、Web 界面，以及您的手机。

https://github.com/omnigent-ai/omnigent

No.4

AI 智能体的失败方式是可以预测的。什么都没断言的测试、把错误吞掉的异常处理、描述一个早已不存在的函数的文档。guard-skills 精准捕捉的正是这些。一套面向编程智能体的守卫技能。质量门禁瞄准 AI 在代码、测试和文档中生成的特定失败模式。标记空断言测试、静默 catch 块、过时注释。

https://github.com/amElnagdy/guard-skills

No.5

如果您想用 AI 在代码库中搜寻严重安全漏洞，看看这个。Hadrian 开源了 OpenHack。这是一个轻量级、基于文件的白盒安全审查工作空间，可直接在 Claude Code 和 Cursor 等工具内部运行。它使用的是他们研究员在开源软件中发现大规模零日漏洞时所用的完全相同的智能体提示词和配置。

https://github.com/hadriansecurity/OpenHack

No.6

Claude Fable 5 赢得声誉的方式在于它是如何工作的：显式的多阶段规划，将任务委派给子智能体，在信任输出之前先自行验证。fable-mode 将这一行为封装为一套技能。把它丢进 Claude Code，它就会激活同样的严格循环：规划各个阶段、将工作拆分给子智能体、自检结果——无论您在跑哪个模型。

https://github.com/mrtooher/fable-mode

No.7

单个编程智能体只相当于一位开发者。Flock 是一整支团队。它是一个自主 AI 开发团队机器人（autonomous AI dev-team bot）：一组智能体各自承担真正工程团队中的角色，协同完成一项任务，而非让一个模型从头到尾包揽一切。您把工作交给它，团队内部协调、规划、构建和评审，您无需操心细枝末节。

https://github.com/duckbugio/flock

No.8

厌倦了每次会话都得向您的 AI 智能体解释数据库表结构和指标定义？ClariLayer 是一个开源的 MCP 服务器，为 Claude Code 或 Cursor 等工具提供对 SQL 模式的持久记忆。它从您现有的 dbt 模型引导启动，记住您的修正，并将定义与实际数据仓库查询进行核对以捕获错误。

https://github.com/clarilayer/clarilayer

No.9

如果您怀念 Claude Fable 的规划能力，您需要看看 FableCodex。这是一个新的开源技能，将 Fable 风格的工作流直接带到您的 Codex 智能体中。它建立起一个严格的规划循环：目标账本（goal ledger）、证据检查点（evidence checkpoint）和最终验证门禁。您的智能体真正地规划、记录和验证自己的工作，而非盲目编码。

https://github.com/baskduf/FableCodex

No.10

想象一个 AI，它静默地观察您的屏幕，学习您的工作流程，然后将您最无聊的任务自动完成，您无需配置任何东西。这就是 Ghostwork。它是一个基于 Screenpipe 构建的开源、本地优先的个人助理。没有云端、零设置，您的所有屏幕数据完全私密地留在您的设备上。

https://github.com/hvardhan878/ghostwork

No.11

如果您正在跑复杂的 AI 智能体循环，您已经知道 API 账单会高得离谱。您需要看看 Inferoa。这是一个专为 Token 效率设计的开源 TypeScript 框架。它利用智能 KV 缓存管理和循环工程来优化智能体与 LLM 的交互方式。这意味着您获得更快的运行速度和低得多的推理成本。

https://github.com/agentic-in/inferoa

No.12

各大实验室让世界级搜索智能体——那种能跨几十个来源研究一个困难问题的智能体——看起来需要一个巨大的闭源模型才能实现。Harness-1 是一份面向长周期搜索智能体（long-horizon search agent）的开放训练方案，仅用 200 亿参数模型就达到了前沿 AI 的搜索能力。长周期意味着智能体能够在多步骤中持续推理和搜索而不丢失线索。

https://github.com/pat-jj/harness-1

No.13

一个 AI 研究助理的危险之处不在于它偶尔出错，而在于它错得信心爆棚，而您根本分不清什么时候该信它、什么时候不该。Caliper 是一个知道何时该信任自己的 AI 研究分析师：一个面向科学研究的、经过校准的、风险可控的、会使用工具的智能体。它自行估算置信度，在立场不稳时保留意见或标记不确定性，并伸手去拿真正的工具而非凭空猜测。

https://github.com/AIScientists-Dev/Caliper

No.14

一个模型单独工作时会漏掉自身的盲点。两个前沿模型互相检查能捕获更多。Fusion Fable 将这一点打包成一个 Claude Code 技能。Opus 4.8 起草答案，第二个模型——另一个 Opus 或通过 Codex 调用的 GPT-5.5——检查其中的漏洞，然后 Opus 将两轮结果融合（fuse）为一个精炼版本。起草、对抗性审查、综合。全自动，一个技能搞定。

https://github.com/duolahypercho/fusion-fable

No.15

人人都在发布声称能让 Opus 表现得像 Fable 的技能，但大多数只是贴出一份行为愿望清单然后碰运气。Fablize 是经过严格验证的版本。作者真的跑了一轮 Fable 与 Opus 的对比测试，只将那些被证明可迁移的行为纳入了技能：完成度（completion）、证据（evidence）和验证（verification），作为硬性流程强制执行，而非温和建议。

https://github.com/fivetaku/fablize

No.16

今年您已经见过十几种智能体控制框架了，也许您已经想自己动手构建一个，而不是把别人的方案削足适履。这是用来造工具的工具。agent-harness-generator 是一个元控制框架：它为您的专属、有品牌的智能体控制框架搭建脚手架，附带自己的 npx CLI、一个 MCP 服务器、记忆模块、学习循环，以及证人签名发布（witness-signed release）机制以确保来源可验证。

https://github.com/ruvnet/agent-harness-generator

这些智能体基础设施项目的数量和品质揭示了一个明确的趋势：原始编程智能体正在迅速商品化，真正的差异化正在向上转移——围绕它们的编排、验证和效率层展开。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

AI Agent的偏见问题与公平性保障

作为一名软件工程师或AI实践者，我们该如何面对这个挑战？本文将带你进行一次深入的技术之旅。我们不仅会从伦理层面讨论公平性，更会从数学定义、数据处理、算法设计、系统架构等硬核角度，全方位剖析AI Agent偏见问题的来龙去脉。你将看到偏见是如何在数据中潜伏，如何在模型中被放大，以及我们有哪些具体的、可编码实现的技术手段来保障公平性。在讨论解决方案之前，我们必须先把问题定义清楚。这一章我们要解决“是什

MCP技术社区

量子计算对 AI Agent Harness 的潜在影响

深夜，某顶级游戏工作室的3D美术师盯着屏幕发呆——他需要给一款开放世界RPG生成100万个高度个性化且逻辑自洽的NPC行为逻辑树，但传统的机器学习Agent训练平台（比如Unity ML-Agents、OpenAI Gym的定制版）已经跑了整整21天，只完成了预设任务的37%，而且生成的12种核心NPC交互模式中，有7种会在极端场景（比如两个帮派火拼时触发了任务NPC的隐藏爱心剧情线）出现行为崩溃

MCP技术社区

AI Agent Harness模型推理精度调优

AI Agent Harness是介于用户指令、基座大模型、工具集、记忆模块、业务规则库之间的核心控制编排层，相当于Agent的"大脑前额叶"，负责全链路的推理管控：指令解析、推理路径规划、工具调用决策、参数校验、结果校验、错误回溯、输出对齐。概念定位核心能力精度管控能力全链路精度管控核心推理规划、校验、回溯、投票、对齐强，原生内置全流程精度优化逻辑Agent编排框架（LangChain等）通用开