30天 LLM+RL+Agent 成长计划（day2）

observer？

582人浏览 · 2026-04-03 23:12:32

observer？ · 2026-04-03 23:12:32 发布

大语言模型（LLM）从底层训练到应用扩展的完整技术栈

今天来学习这四个概念，SFT，RLHF，RAG，MCP。
要把这四个概念串联起来，最直观的方法是把 LLM（大语言模型） 想象成一个**“职场新人”**。

这四个技术分别解决了这个新人的学历、情商、记性和办公工具问题。

1. 核心概念拆解

🎓 SFT (监督微调)：从“通用人才”到“专业人才”

概念： 给模型看大量“问题-标准答案”对，让它模仿。
解决： 格式与指令遵循。
比喻： 相当于让一个大学生去上岗培训。比如你是个幽默的人，SFT 就是让这个新人看你过去几年的聊天记录，学会你的说话语气和常用词。

🎭 RLHF / DPO (偏好对齐)：从“会说话”到“懂规矩”

概念： 给模型两个答案，让它选人类更喜欢的那个。
解决： 价值观与细节打磨。
比喻： 相当于主管在旁边观察。当新人说了句不得体的话，你告诉他：“这种话以后少说，那样说才对。”DPO 是为了让模型在“像你”的基础上，更符合你的审美或价值观，减少胡言乱语。

📚 RAG (检索增强)：从“凭记忆考”到“翻书考”

概念： 先去数据库里搜相关资料，再把资料塞给模型看。
解决： 实时知识与私域数据。
比喻： 相当于给新人发了一本《员工手册》和《历史档案》。模型不需要背下你 10 年前的所有日记，只需要在被问到时，去数据库里“翻一下”，照着念就行。

🔌 MCP (模型上下文协议)：从“光说不练”到“全能管家”

概念： 一种通用的标准接口，让模型可以直接读取文件、查数据库、调 API。
解决： 外部工具调用与环境交互。
比喻： 相当于给新人的工位接上了电话、电脑和打印机。通过 MCP，你的数字人不仅能陪你聊天，还能帮你查今天的日程，甚至直接帮你写个日报存进电脑。

接下来详细讲解各部分的原理

1. Pre-training (预训练)：认知的起源

预训练是大模型最底层、最耗能、也是知识储备的来源。

核心逻辑： 在海量的无标注文本（互联网数据、书籍、代码、论文）上进行自监督学习（Self-supervised Learning）。
任务目标： Next Token Prediction（下一个词预测）。给定前 $n$ 个词，预测第 $n + 1$ 个词。
- 其损失函数通常是交叉熵损失：
  $LPT=−∑ilog⁡P(xi∣x<i;θ)\mathcal{L}_{PT} = - \sum_{i} \log P(x_i | x_{<i}; \theta)$
产出物： Base Model（基座模型）。它具备了强大的语言理解和生成能力，但它不会“对话”，只会“续写”。如果你问它“怎么做红烧肉？”，它可能会给你续写出一篇关于红烧肉的历史散文，而不是步骤。

2. SFT (Supervised Fine-Tuning, 监督微调)：指令的遵循

SFT 是将基座模型转化为“对话助手”的关键一步。

核心逻辑： 使用高质量的人工标注数据 $(P r o m pt, R es p o n se)$ 进行微调。
任务目标： 学习如何响应特定的指令格式。
- 模型开始理解什么是“问题”，什么是“回答”，以及如何保持特定的输出格式（如 JSON、代码、摘要）。
局限性： SFT 只是在模仿样本。如果样本覆盖不到的情况，模型可能依然会产生严重的幻觉或输出不符合预期的长篇大论。

3. RLHF / DPO (对齐)：价值的校准

RLHF (Reinforcement Learning from Human Feedback) 或 DPO (Direct Preference Optimization) 解决的是“好坏”的问题。

核心逻辑： 引入人的偏好。当模型面对同一个问题生成多个答案时，人类告诉它哪个更好。
PPO 路线： 训练一个奖励模型（RM）来模拟人的打分，再用强化学习算法优化。
DPO 路线： 跳过奖励模型，直接通过偏好数据更新策略，其核心公式如下：
$LDPO(πθ;πref)=−E(x,yw,yl)∼D[log⁡σ(βlog⁡πθ(yw∣x)πref(yw∣x)−βlog⁡πθ(yl∣x)πref(yl∣x))]\mathcal{L}_{DPO}(\pi_{\theta}; \pi_{ref}) = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]$
目的： 提高模型的安全性（Safety）和有用性（Helpfulness），抑制幻觉和有害输出。

4. RAG (Retrieval-Augmented Generation, 检索增强)：知识的外挂

RAG 解决了模型“知识过时”和“私域数据缺失”的问题。

核心逻辑： 检索 + 拼接 + 生成。
1. 将用户的提问转为向量，去向量数据库检索相关文档片段。
2. 将检索到的片段作为背景知识，连同问题一起塞进模型的 Prompt 中。
3. 模型根据背景知识生成答案。
本质： 模型不再仅仅依靠参数里的“死记硬背”，而是有了“开卷考试”的能力。

5. MCP (Model Context Protocol, 模型上下文协议)：能力的接口

MCP 是连接模型与外部世界的最新标准。

核心逻辑： 定义了一套标准化的 JSON-RPC 协议，让 LLM 能够以统一的方式访问外部资源。
三大支柱：
- Resources (资源)： 让模型能读取外部数据（如文件内容、数据库记录）。
- Prompts (提示词)： 提供标准化的指令模板。
- Tools (工具)： 让模型能执行动作（如发送邮件、运行脚本、查询 API）。
意义： 解决了“工具调用（Function Calling）”的碎片化问题。一旦有了 MCP，一个模型可以无缝对接成千上万个符合协议的外部工具。

总结：技术演进逻辑

阶段	解决什么问题？	改变了什么？	产出物示例
Pre-training	让模型拥有基础认知和语言能力	模型权重（大规模参数）	Llama-3-Base, Qwen2.5-7B
SFT	让模型听懂指令，学会对话格式	模型权重（指令适应）	Llama-3-Instruct, ChatGPT
RLHF/DPO	让模型更符合人类偏好，更安全	模型权重（价值观对齐）	经过对齐后的最终对话模型
RAG	解决模型记不住、不知道实时信息的问题	输入的 Context（外部知识）	各类基于私有文档的知识库
MCP	解决模型无法直接操作外部工具的问题	模型的连接能力（动作执行）	接入本地文件或 API 的智能 Agent

技术组合的典型工作流

PT + SFT + DPO：打磨出一个智商高、情商高、听话的核心模型。
核心模型 + RAG：让这个模型拥有了查阅海量专业文档的能力。
RAG + MCP：让这个拥有专业知识的模型，能够自动操作外部工具（如根据文档内容自动发送周报）。

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

Go语言的runtime.GOMAXPROCS中的任务限制

在Go的并发模型中，runtime.GOMAXPROCS函数扮演了关键角色，它用于设置程序运行时可以使用的最大CPU核心数。每个核心上运行的Go协程（goroutine）会通过调度器进行切换，而GOMAXPROCS的值决定了同时执行的任务上限。通过runtime.NumCPU()可以获取当前机器的CPU核心数，而结合GOMAXPROCS的调整，开发者可以更精准地控制程序行为。在性能调优时，可以使用

MCP技术社区

游戏开发工具插件开发与脚本编写

在游戏开发的世界里，工具插件与脚本编写是开发者手中的魔法钥匙。无论是Unity、Unreal Engine还是Godot，强大的扩展能力让开发者能够定制专属工具，提升工作效率，甚至实现引擎本身无法直接支持的功能。例如，Unity的Asset Store中许多工具都是通过插件实现的，如地形生成器或AI行为树编辑器。脚本是游戏逻辑的“神经中枢”，通常用Lua、Python或引擎专用语言（如Unity的

MCP技术社区

LangChain 框架入门：构建LLM应用

LangChain框架应运而生，它通过模块化设计简化了LLM应用的开发流程，让开发者能够快速构建智能对话、知识问答等场景的应用。这一特性尤其适合构建知识密集型应用，比如企业内部的智能客服或法律咨询系统，让模型能够基于最新数据生成准确回答。它将LLM应用拆分为多个可复用的组件，如模型调用、记忆管理、工具集成等。例如，通过简单的链式调用（Chain），就能实现“用户输入-模型处理-结果输出”的完整流程