MCP和开源Agent框架整理
第一阶段:LLM 仅依赖训练数据回答,缺乏工具调用能力。第二阶段:增加上下文输入,可调用工具但交互不自然。第三阶段:构建底层架构,LLM 能接入外部应用,系统实现可维护性。MCP打通上下文与工具接入,“给 agent 装上执行工具的统一接口”;Agent 架构定义 agent 内部如何思考、通信和执行;Agent 编排将多个架构合理协作组合完成复杂任务;开源框架则将上述三者封装成不同级别和适配场景
文章目录
前言预览
MCP 是连接 LLM 和外部数据/工具的标准协议,机制是:
1. MCP协议
1.1 为何引入MCP
1.1.1 问题背景
- 若无上下文支持,LLM 无法获取实时数据、执行代码、调用API或操作浏览器,甚至无法代表用户执行具体任务。
1.1.2 解决方式
-
Composio:提供规范 + 工具库,并推出 Composio MCP,可接入 100+ MCP 支持的 IDE(如 Cursor、Claude、Windsurf)。
链接:https://composio.dev/
-
Agents.json:基于 OpenAI 标准的交互协议,优化智能体与工具/API 交互(但普及度较低)。
链接:https://github.com/wild-card-ai/agents-json
-
MCP(模型上下文协议): MCP 为开发者提供了最佳方式,能够向LLM和AI助手提供上下文数据以解决问题。例如,我们可以搭建一个 MCP文档服务器,让IDE和智能体框架(类似于
llms.txt
文件的方式)完整访问我们的文档。
1.2 MCP是什么?
MCP协议:LLM 和工具之间的标准化交互协议。
AI智能体工具包为开发者提供了多样化的API接口,旨在为AI解决方案配备执行任务所需的工具,并确保输出结果的准确性以满足用户需求。
然而,将这些工具集成至AI应用程序并进行有效管理往往面临诸多混乱。通过模型上下文协议(MCP),为大型语言模型和智能体提供上下文的行业标准实践。
1.2.1 定义与发展阶段
- 第一阶段:LLM 仅依赖训练数据回答,缺乏工具调用能力。
- 第二阶段:增加上下文输入,可调用工具但交互不自然。
- 第三阶段:构建底层架构,LLM 能接入外部应用,系统实现可维护性。
1.2.2 功能与优势
- MCP 是开源标准(Anthropic 提供),提供一种标准化方式,用于连接企业云端数据(如 GitHub、Notion、Web、商业工具)与 LLM/智能体。
- 广泛用于 AI 辅助编程(与 Cursor、Windsurf 集成 hundreds+ 开发环境)。
- 典型应用:通过 MCP 实现 ChatGPT 访问 Slack、日历、浏览器等。
1.3 MCP工作原理
在大语言模型(LLM)和智能体的应用场景中,MCP能够帮助它们对超出内置知识范围的用户查询作出有效响应。
例如,当您要求ChatGPT向特定Slack频道发送消息、查看日历空闲时间并安排今日团队会议时,ChatGPT的回应往往会令人失望——因为它无法直接访问这些应用程序。而MCP的实施则能让这些智能助手输出真正可用的结果。
1.3.1 MCP如何运作?
MCP的基本操作方式是:用户向智能体发送查询,**智能体随后决定调用哪个MCP服务器和工具,以获取相关信息用于完成任务。**智能体再利用来自特定工具的数据,向用户提供响应。
那么为什么需要将MCP用于AI Agent ?
**MCP正逐渐成为开发者构建AI系统的行业标准,使这些系统能够高效对接各类外部应用程序。**微软近期宣布在Copilot Studio中集成MCP协议,大幅简化了AI应用和智能体调用工具的过程。无独有偶,OpenAI也宣布在其全线产品(包括智能体开发套件和ChatGPT桌面应用)中支持MCP协议。
虽然直接为AI助手配备工具并无不妥,但对于包含多个子智能体、需并行处理邮件收发、网络爬取、财务分析、实时天气查询等复杂任务的AI系统而言,这种直接集成方式会显得异常笨拙。
1.3.2 具备工具集成的AI Agent
在上图中,有三个外部工具连接至大语言模型(LLM)。如果工具数量增加到100个以上,管理和保障其安全性将变得令人头疼。
改进方案是通过MCP注册中心统一访问这些工具(甚至超过100个),如下所示。
我们将智能体系统所需的工具整合起来,并通过MCP服务器统一访问,从而提供更连贯的用户体验。MCP方案通过集中化管理,使这些工具的安全维护和操作管理变得更加便捷。
2. Agent编排和架构
编排:如何实现agent去感知、决策、行动、反馈的循环。
架构:指各个 agent 的内部结构设计,以及它们之间的协作方式,如编码风格和通信协议 。
2.1 关键编排模式
- Chain‑of‑Thought (CoT):分步思考,适合逻辑推理类任务。
- ReAct:将思考与工具调用结合,采用 “Thought → Action → Observation” 循环,灵活应对多步决策。
- Reflexion:利用反馈进行反思优化,适合复杂/多次迭代任务。
2.2 系统架构:单 Agent vs 多 Agent
- 单 Agent:适合执行快速单一任务,无需协作。
- 多 Agent (MAS):适用于场景复杂、需多角色协作;但面临通信、协调、性能、可扩展性挑战。
- 多 Agent 系统需支持:角色分工、协商机制、共享内存/黑板、管理 Agent 等复杂架构。
3. 开源Agent框架对比
框架 | 特点与优势 | 局限性 |
---|---|---|
LangChain | 模块化、快捷集成工具与记忆;配合 LangSmith 调试。 | 过度抽象,使用门槛高,过工程化。 |
LangGraph | 图结构建模任务流程;高控制性,独立于集成层。 | 更适合复杂非线性流程,学习曲线可能更陡峭。 |
AutoGen | 微软出品;多 Agent 异步消息/分层架构;配套 Bench/Studio。 | 无明显提及局限。 |
CrewAI | 角色/流程导向;基于 LangChain;适顺序编排。 | 目前仅支持顺序流程,偶有输出不完整。 |
LlamaIndex | 专注 RAG;提供统一 API、文档处理;性能优化。 | 被用户反馈“复杂冗余、封装困难读”。 |
总结
- MCP 打通上下文与工具接入,“给 agent 装上执行工具的统一接口”;
- Agent 架构 定义 agent 内部如何思考、通信和执行;
- Agent 编排 将多个架构合理协作组合完成复杂任务;
- 开源框架 则将上述三者封装成不同级别和适配场景的开发工具,为设计者提供落地路径。
🧩 参考链接
https://mp.weixin.qq.com/s/gwhuF4nQ9uKfXoL0NhCkRw
更多推荐
所有评论(0)