明略科技开源 Octo:当 AI Agent 不再单兵作战,协作层怎么设计
过去一年,AI Agent 领域发生了一个显著变化。Claude Code 可以独立完成代码工程,Codex 可以在后台批量执行开发任务,明略科技自研的 Mano-P 端侧模型在 OSWorld 基准测试中以 58.2% 成功率拿下专用 GUI Agent 模型第一名。单个 Agent 的执行能力已经不再是行业瓶颈。
然而当企业真正尝试在团队内规模化使用 Agent 时,一个新的问题暴露出来:这些 Agent 之间彼此不通气。开发工程师的 Agent 在写代码,产品经理的 Agent 在整理需求,运营同事的 Agent 在做数据分析,三个 Agent 产出的结果互不可见,要同步信息还是得靠人手动复制粘贴。Agent 越多,人的协调负担反而越重。
这个问题的本质不是 Agent 不够聪明,而是缺少一个让 Agent 互相连接、协同工作的基础设施。就像互联网诞生之前,每台计算机都有算力,但真正改变世界的是把它们连接起来的网络协议和通信层。
明略科技开源的 Octo 项目,瞄准的正是这个空白。Octo 是一个为人和 AI Agent 协作而生的开源工作平台,它的核心价值不是再造一个更强的 AI 助手,而是让已有的各种 Agent 进入同一个协作网络,形成组织级的协同能力。
Octo 给用户带来了什么
对于日常使用 AI Agent 的团队来说,Octo 解决的是三个非常具体的痛点。
第一个痛点是部署和分发成本高。传统 Agent 工具的使用路径是每个人各自安装 CLI、配置环境、获取 Token、学习命令。一个 10 人团队意味着 10 次独立部署,新人上手还需要额外的培训成本。Octo 的做法是把 Agent 接入 IM 协作层,管理员把数字分身拉进一个频道就完成了部署,团队成员无需任何额外安装和配置就能直接使用。这使得 Agent 的分发效率从个人级跃升到组织级。
第二个痛点是 Agent 的工作过程对团队不可见。当 Agent 在个人终端里工作时,它做了什么、产出了什么、进展到哪一步,只有使用者本人知道。其他团队成员无法审查 Agent 的执行过程,也无法在关键节点介入。Octo 让 Agent 的执行过程发生在团队共享的频道和子区中,所有协作参与者都可以看到 Agent 正在做什么,可以随时提供反馈或做判断决策。
第三个痛点是多 Agent 之间缺少协调机制。一个稍微复杂的业务流程可能涉及调研、撰写、审核、执行等多个环节,需要不同 Agent 接力完成。Octo 提供的空间、频道、子区三级协作结构,让多个数字分身可以在同一个任务流中被分工、被调度、被串联,形成完整的工作链条。
为什么选择 IM 作为底座
Octo 当前版本以 IM 为主要交互界面,这个选择背后有明确的工程考量。
IM 是企业内唯一一个全员每天都在高频使用的工具。把 Agent 协作接入这个渠道,意味着用户不需要额外打开一个新的应用或学习一套新的操作方式,Agent 的能力直接出现在日常工作流中。同事在频道里看到数字分身正在工作,自然就理解了这种能力可用、怎么用,能力沿着对话流自然扩散,不需要额外的培训和推广成本。
需要强调的是,IM 只是用户进入协作网络的入口,不是 Octo 的全部。Octo 的本质是连接层,它连接的对象包括人、数字分身、执行型 Agent 和外部工具。随着后续版本迭代,Octo 将进一步把数字分身与 Claude Code、Codex 等执行型 Agent 打通,让 Agent 之间的协作过程变得可见、可追踪、可管理。
数字分身:Agent 的身份设计
Octo 对 Agent 的定位不是公共助手或通用 AI 客服,而是归属于个人的数字分身。每个数字分身由用户创建、由用户训练、归用户所有。它学习用户的指令和工作方式,记住用户交付给它的工作上下文,按用户认可的方式执行任务。
这个设计选择带来两个直接收益。一方面,权限管理变得简单清晰,数字分身的权限等于其 Bot 配置权限和主人在空间中角色权限的交集,无需为 Agent 设计独立的权限体系;另一方面,责任链条完整可追溯,数字分身的每一个操作都可以追溯到其创建者,满足企业对审计合规的需求。
更重要的是,数字分身始终是用户的延伸而非替代。用户的判断力、品味和暗默知识属于用户本人,不会被提取或蒸馏。数字分身负责执行和协调,用户负责判断和决策,人机之间的分工界限清晰。
核心功能
协作结构(空间/频道/子区)
Octo 通过空间、分组、频道、子区四级拓扑组织协作。空间是数据完全隔离的协作域,适合按项目或部门划分;频道是围绕具体主题或工作流的协作节点;子区是频道内的任务执行单元。人和数字分身在这些结构中走同一套协作动作,不需要为 Agent 建立独立的调度系统。
语音输入与语音编辑
当 Agent 的处理能力越来越强时,人向 Agent 输入信息的速度反而成为瓶颈。Octo 的语音输入功能可以结合上下文信息自动纠错,让用户用说话的方式快速下达任务、补充背景和提供反馈。语音编辑功能支持用自然语言指令修改已有文字,比如"把第一段的语气改正式一点"或"删掉最后一句",进一步降低人机交互的摩擦。
浏览器插件(Cmd+K)
Octo 不替代用户现有的工具,而是在现有工具旁边提供协作能力。通过浏览器插件,用户在任何网页上按 Cmd+K 就可以把当前页面的上下文信息(URL、标题、选中文字)发送给数字分身,或引用到当前的协作对话中。飞书文档、Notion 笔记、GitHub Issue、Jira 看板,任何 Web 端工具都可以通过这种方式接入 Agent 协作网络,无需工具本身做任何适配。
group.md
每个频道或子区可以关联一份 group.md 文档,由 AI Agent 引导团队协同填写。在项目 Kickoff、需求对齐、复盘会议等场景中,Agent 不只是被动回答问题,而是主动组织结构化讨论,引导参与者逐项输入观点并收敛共识,输出一份所有人对齐过的结论文档。
开源与私有化部署
Octo 由明略科技开源,采用 Apache 2.0 协议,支持私有化部署。所有数据存储在用户自己的基础设施中,不经过任何第三方服务器。这对数据安全敏感的企业场景尤其重要。
选择开源的判断是:在 AI 时代,软件代码本身越来越容易被复刻,组织真正的壁垒是独有的工作上下文和判断力。Octo 选择把平台能力完全开放,让用户把精力放在积累自己的工作上下文和培育自己的数字分身上,而不是被平台锁定。
关于明略科技
明略科技是国内认知智能与数据智能领域的技术公司,在 AI Agent 方向已开源多个项目。Mano-P 端侧 GUI Agent 模型在 OSWorld 基准测试中以 72B 版本取得 58.2% 成功率,排名所有专用 GUI Agent 模型第一;4B 量化版本可在 Apple M4 芯片 + 32GB 内存的 Mac 上本地运行,配合 Cider 推理加速 SDK 实现高效端侧推理。Octo 则解决了 Agent 在组织内的协作和分发问题,两个项目共同构成从"单 Agent 能力"到"组织级 Agent 协作"的完整技术路径。
欢迎关注明略科技开源项目,参与社区讨论和贡献:GitHub:https://github.com/Mininglamp-OSS
更多推荐

所有评论(0)