MCP和开源Agent框架整理

第一阶段：LLM 仅依赖训练数据回答，缺乏工具调用能力。第二阶段：增加上下文输入，可调用工具但交互不自然。第三阶段：构建底层架构，LLM 能接入外部应用，系统实现可维护性。MCP打通上下文与工具接入，“给 agent 装上执行工具的统一接口”；Agent 架构定义 agent 内部如何思考、通信和执行；Agent 编排将多个架构合理协作组合完成复杂任务；开源框架则将上述三者封装成不同级别和适配场景

follxin

777人浏览 · 2025-07-07 14:11:30

follxin · 2025-07-07 14:11:30 发布

文章目录

前言预览

MCP 是连接 LLM 和外部数据/工具的标准协议，机制是：

1. MCP协议

1.1 为何引入MCP

1.1.1 问题背景

若无上下文支持，LLM 无法获取实时数据、执行代码、调用API或操作浏览器，甚至无法代表用户执行具体任务。

1.1.2 解决方式

Composio：提供规范 + 工具库，并推出 Composio MCP，可接入 100+ MCP 支持的 IDE（如 Cursor、Claude、Windsurf）。

链接：https://composio.dev/
Agents.json：基于 OpenAI 标准的交互协议，优化智能体与工具/API 交互（但普及度较低）。

链接：https://github.com/wild-card-ai/agents-json
MCP（模型上下文协议）： MCP 为开发者提供了最佳方式，能够向LLM和AI助手提供上下文数据以解决问题。例如，我们可以搭建一个 MCP文档服务器，让IDE和智能体框架（类似于llms.txt文件的方式）完整访问我们的文档。

1.2 MCP是什么？

MCP协议：LLM 和工具之间的标准化交互协议。

AI智能体工具包为开发者提供了多样化的API接口，旨在为AI解决方案配备执行任务所需的工具，并确保输出结果的准确性以满足用户需求。

然而，将这些工具集成至AI应用程序并进行有效管理往往面临诸多混乱。通过模型上下文协议（MCP），为大型语言模型和智能体提供上下文的行业标准实践。

1.2.1 定义与发展阶段

第一阶段：LLM 仅依赖训练数据回答，缺乏工具调用能力。
第二阶段：增加上下文输入，可调用工具但交互不自然。
第三阶段：构建底层架构，LLM 能接入外部应用，系统实现可维护性。

1.2.2 功能与优势

MCP 是开源标准（Anthropic 提供），提供一种标准化方式，用于连接企业云端数据（如 GitHub、Notion、Web、商业工具）与 LLM/智能体。
广泛用于 AI 辅助编程（与 Cursor、Windsurf 集成 hundreds+ 开发环境）。
典型应用：通过 MCP 实现 ChatGPT 访问 Slack、日历、浏览器等。

1.3 MCP工作原理

在大语言模型（LLM）和智能体的应用场景中，MCP能够帮助它们对超出内置知识范围的用户查询作出有效响应。

例如，当您要求ChatGPT向特定Slack频道发送消息、查看日历空闲时间并安排今日团队会议时，ChatGPT的回应往往会令人失望——因为它无法直接访问这些应用程序。而MCP的实施则能让这些智能助手输出真正可用的结果。

1.3.1 MCP如何运作？

MCP的基本操作方式是：用户向智能体发送查询，**智能体随后决定调用哪个MCP服务器和工具，以获取相关信息用于完成任务。**智能体再利用来自特定工具的数据，向用户提供响应。

那么为什么需要将MCP用于AI Agent ?

**MCP正逐渐成为开发者构建AI系统的行业标准，使这些系统能够高效对接各类外部应用程序。**微软近期宣布在Copilot Studio中集成MCP协议，大幅简化了AI应用和智能体调用工具的过程。无独有偶，OpenAI也宣布在其全线产品（包括智能体开发套件和ChatGPT桌面应用）中支持MCP协议。

虽然直接为AI助手配备工具并无不妥，但对于包含多个子智能体、需并行处理邮件收发、网络爬取、财务分析、实时天气查询等复杂任务的AI系统而言，这种直接集成方式会显得异常笨拙。

1.3.2 具备工具集成的AI Agent

90b775cf7bde652ec7a4a335a65e5683

在上图中，有三个外部工具连接至大语言模型（LLM）。如果工具数量增加到100个以上，管理和保障其安全性将变得令人头疼。

改进方案是通过MCP注册中心统一访问这些工具（甚至超过100个），如下所示。

我们将智能体系统所需的工具整合起来，并通过MCP服务器统一访问，从而提供更连贯的用户体验。MCP方案通过集中化管理，使这些工具的安全维护和操作管理变得更加便捷。

2. Agent编排和架构

编排：如何实现agent去感知、决策、行动、反馈的循环。

架构：指各个 agent 的内部结构设计，以及它们之间的协作方式，如编码风格和通信协议。

2.1 关键编排模式

Chain‑of‑Thought (CoT)：分步思考，适合逻辑推理类任务。
ReAct：将思考与工具调用结合，采用 “Thought → Action → Observation” 循环，灵活应对多步决策。
Reflexion：利用反馈进行反思优化，适合复杂/多次迭代任务。

2.2 系统架构：单 Agent vs 多 Agent

单 Agent：适合执行快速单一任务，无需协作。
多 Agent (MAS)：适用于场景复杂、需多角色协作；但面临通信、协调、性能、可扩展性挑战。
- 多 Agent 系统需支持：角色分工、协商机制、共享内存/黑板、管理 Agent 等复杂架构。

3. 开源Agent框架对比

框架	特点与优势	局限性
LangChain	模块化、快捷集成工具与记忆；配合 LangSmith 调试。	过度抽象，使用门槛高，过工程化。
LangGraph	图结构建模任务流程；高控制性，独立于集成层。	更适合复杂非线性流程，学习曲线可能更陡峭。
AutoGen	微软出品；多 Agent 异步消息/分层架构；配套 Bench/Studio。	无明显提及局限。
CrewAI	角色/流程导向；基于 LangChain；适顺序编排。	目前仅支持顺序流程，偶有输出不完整。
LlamaIndex	专注 RAG；提供统一 API、文档处理；性能优化。	被用户反馈“复杂冗余、封装困难读”。