本文将为你逐一解析这些核心概念,助你构建清晰的 AI 技术全景图。


🧠 LLM:大语言模型,AI 的“大脑”

LLM (Large Language Model)​ 是在海量文本上预训练的巨大神经网络,如 GPT-4、Claude、通义千问等。

  • 核心能力:理解自然语言、生成文本、进行基础推理。

  • 工作方式:接收输入(Prompt),预测并生成最合理的后续内容。

  • 关键局限:知识有截止日期,不了解私有数据,也无法直接操作外部系统(如数据库、文件系统)。

一句话比喻:LLM 是只会“动脑不动手”的超级顾问。


🤖 Agent:智能体,能“自己干活”的系统

Agent (智能体)​ 是以 LLM 为“大脑”,能够自主完成任务的系统。它不仅仅是聊天机器人,而是能感知环境、制定计划、调用工具并循环执行,直到任务完成。

一个典型的 Agent 通常包含以下模块:

  • LLM:负责推理、规划与决策。

  • Tools/Skills:可被调用的外部能力(如查数据库、发邮件)。

  • Memory:短期对话记忆与长期知识库。

  • Planner:将复杂目标拆解为具体步骤。

  • Controller:执行循环:思考 → 行动 → 观察 → 调整。

一句话比喻:Agent 是“有大脑、有手脚、能闭环做事”的完整 AI 员工。


🛠️ Skills:技能,Agent 的“手脚”

Skill (技能)​ 是 Agent 可以调用的、封装好的“原子能力单元”,专注于完成单一、具体的任务。

  • 特点:无自主决策能力,被动调用,输入固定参数,输出确定结果。

  • 常见类型

    • 工具类:调用外部 API、读写数据库、操作文件、发送邮件等。

    • LLM 衍生类:文本摘要、代码生成、情感分析等。

一句话比喻:Skill 是 Agent 工具箱里的各种专用工具。


🔌 MCP:模型上下文协议,AI 的“通用接口”

MCP (Model Context Protocol)​ 是由 Anthropic 提出的一种开放协议,旨在标准化 LLM/Agent 与外部工具、数据源之间的通信方式。

  • 核心作用

    • 统一接口:定义工具调用的请求/响应格式,让 Agent 能用一套标准语法调用任何工具。

    • 能力发现:Agent 可动态查询 MCP Server 以获取可用工具列表。

    • 上下文管理:规范上下文信息的传递,减少重复计算。

    • 权限与安全:内置认证、授权和加密机制,保障数据安全。

典型架构

  • MCP Client:嵌入在 Agent 或 IDE 中,负责发起请求。

  • MCP Server:独立进程,封装具体工具(如文件系统、GitHub),对外提供标准化接口。

一句话比喻:MCP 是 AI 世界的“USB-C/HTTP 协议”,让 Agent 能即插即用各种工具。


📚 RAG:检索增强生成,AI 的“外挂知识库”

RAG (Retrieval-Augmented Generation)​ 是一种在 LLM 生成答案前,先从外部知识库中检索相关信息,再结合这些信息生成回答的技术,旨在解决模型知识陈旧和“幻觉”问题。

典型流程

  1. 数据入库:将企业文档、网页等资料通过嵌入模型转换为向量,存入向量数据库。

  2. 用户提问:用户提出问题。

  3. 检索:将问题也向量化,在数据库中检索最相关的文档片段。

  4. 增强生成:将“用户问题 + 检索到的文档”一同交给 LLM,生成更准确、有依据的回答。

一句话比喻:RAG 是给 LLM 配了一本实时更新的“参考书”。


🧩 其他相关概念

  • Prompt / Prompt Engineering:Prompt 是给模型的指令。Prompt Engineering 则是设计高效 Prompt 以引导模型输出期望结果的艺术,是构建 Agent 的基础。

  • Embedding / 向量数据库:Embedding 将文本等非结构化数据转换为高维向量。向量数据库则高效地存储和检索这些向量,是 RAG 技术的核心组件。

  • Function Calling:许多大模型支持的“函数调用”能力,允许模型输出结构化指令来调用预定义函数。MCP 可被视为一种更通用、标准化的 Function Calling 协议。

  • Fine-tuning / 微调:在预训练模型基础上,使用特定领域数据进行额外训练,以提升模型在特定任务上的表现。

  • Context Window / 上下文窗口:模型一次能处理的最大输入长度。它决定了 Agent 能“记住”多少信息,是构建复杂 Agent 的关键限制之一。

  • Multi-Agent / 多智能体:由多个 Agent 分工协作的系统,每个 Agent 负责不同子任务(如规划、执行、评审),通过消息传递协同工作。

  • Workflow / 工作流:一种更传统的确定性流程编排方式,通过预定义的节点和边来控制任务执行路径,常与 Agent 结合使用。


🤝 概念协同工作流

以一个实际场景为例,看看这些概念是如何协同工作的:

用户需求:“帮我分析最近三个月的销售数据,找出 Top 3 的产品,生成图表并发送到 Slack。”

执行流程

  1. Agent 接收需求:Agent 启动,LLM 理解用户意图,并将其拆解为子任务:查数据 → 分析 → 生成图表 → 发通知。

  2. RAG 提供知识:若分析需要参考内部业务知识,Agent 会通过 RAG 检索相关文档,为 LLM 提供决策依据。

  3. Agent 规划与调用:LLM 基于 RAG 结果,规划出执行步骤,并决定调用哪些 Skills(如 JdbcSkillChartSkillSlackSkill)。

  4. MCP 执行调用:Agent 通过 MCP 协议,向相应的 MCP Server 发送标准化的工具调用请求。

  5. Skills 执行任务:MCP Server 接收到请求后,执行封装好的具体逻辑(如查询数据库、生成图表),并将结果返回给 Agent。

  6. Agent 整合与反馈:Agent 收集所有执行结果,再次调用 LLM 进行总结和润色,最终将完整的分析报告发送到 Slack,并呈现给用户。

角色分工

  • LLM:负责思考、规划与总结。

  • RAG:提供精准、实时的业务知识。

  • Skills:执行查库、画图、发消息等具体操作。

  • MCP:作为通用接口,连接 Agent 与各种 Skills。

  • Agent:作为总指挥,负责全局调度与异常处理。


🚀 快速掌握核心概念

  • LLM:会“说”的大脑

  • RAG:实时更新的“参考书”

  • Skills:能“做”的具体工具

  • MCP:连接一切的“通用接口”

  • Agent:统筹全局的“智能员工”

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐