30天 LLM+RL+Agent 成长计划(day2)
·
大语言模型(LLM)从底层训练到应用扩展的完整技术栈
今天来学习这四个概念,SFT,RLHF,RAG,MCP。
要把这四个概念串联起来,最直观的方法是把 LLM(大语言模型) 想象成一个**“职场新人”**。
这四个技术分别解决了这个新人的学历、情商、记性和办公工具问题。
1. 核心概念拆解
🎓 SFT (监督微调):从“通用人才”到“专业人才”
- 概念: 给模型看大量“问题-标准答案”对,让它模仿。
- 解决: 格式与指令遵循。
- 比喻: 相当于让一个大学生去上岗培训。比如你是个幽默的人,SFT 就是让这个新人看你过去几年的聊天记录,学会你的说话语气和常用词。
🎭 RLHF / DPO (偏好对齐):从“会说话”到“懂规矩”
- 概念: 给模型两个答案,让它选人类更喜欢的那个。
- 解决: 价值观与细节打磨。
- 比喻: 相当于主管在旁边观察。当新人说了句不得体的话,你告诉他:“这种话以后少说,那样说才对。”DPO 是为了让模型在“像你”的基础上,更符合你的审美或价值观,减少胡言乱语。
📚 RAG (检索增强):从“凭记忆考”到“翻书考”
- 概念: 先去数据库里搜相关资料,再把资料塞给模型看。
- 解决: 实时知识与私域数据。
- 比喻: 相当于给新人发了一本《员工手册》和《历史档案》。模型不需要背下你 10 年前的所有日记,只需要在被问到时,去数据库里“翻一下”,照着念就行。
🔌 MCP (模型上下文协议):从“光说不练”到“全能管家”
- 概念: 一种通用的标准接口,让模型可以直接读取文件、查数据库、调 API。
- 解决: 外部工具调用与环境交互。
- 比喻: 相当于给新人的工位接上了电话、电脑和打印机。通过 MCP,你的数字人不仅能陪你聊天,还能帮你查今天的日程,甚至直接帮你写个日报存进电脑。
接下来详细讲解各部分的原理
1. Pre-training (预训练):认知的起源
预训练是大模型最底层、最耗能、也是知识储备的来源。
- 核心逻辑: 在海量的无标注文本(互联网数据、书籍、代码、论文)上进行自监督学习(Self-supervised Learning)。
- 任务目标: Next Token Prediction(下一个词预测)。给定前 nnn 个词,预测第 n+1n+1n+1 个词。
- 其损失函数通常是交叉熵损失:
LPT=−∑ilogP(xi∣x<i;θ)\mathcal{L}_{PT} = - \sum_{i} \log P(x_i | x_{<i}; \theta)LPT=−i∑logP(xi∣x<i;θ)
- 其损失函数通常是交叉熵损失:
- 产出物: Base Model(基座模型)。它具备了强大的语言理解和生成能力,但它不会“对话”,只会“续写”。如果你问它“怎么做红烧肉?”,它可能会给你续写出一篇关于红烧肉的历史散文,而不是步骤。
2. SFT (Supervised Fine-Tuning, 监督微调):指令的遵循
SFT 是将基座模型转化为“对话助手”的关键一步。
- 核心逻辑: 使用高质量的人工标注数据 (Prompt,Response)(Prompt, Response)(Prompt,Response) 进行微调。
- 任务目标: 学习如何响应特定的指令格式。
- 模型开始理解什么是“问题”,什么是“回答”,以及如何保持特定的输出格式(如 JSON、代码、摘要)。
- 局限性: SFT 只是在模仿样本。如果样本覆盖不到的情况,模型可能依然会产生严重的幻觉或输出不符合预期的长篇大论。
3. RLHF / DPO (对齐):价值的校准
RLHF (Reinforcement Learning from Human Feedback) 或 DPO (Direct Preference Optimization) 解决的是“好坏”的问题。
- 核心逻辑: 引入人的偏好。当模型面对同一个问题生成多个答案时,人类告诉它哪个更好。
- PPO 路线: 训练一个奖励模型(RM)来模拟人的打分,再用强化学习算法优化。
- DPO 路线: 跳过奖励模型,直接通过偏好数据更新策略,其核心公式如下:
LDPO(πθ;πref)=−E(x,yw,yl)∼D[logσ(βlogπθ(yw∣x)πref(yw∣x)−βlogπθ(yl∣x)πref(yl∣x))]\mathcal{L}_{DPO}(\pi_{\theta}; \pi_{ref}) = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]LDPO(πθ;πref)=−E(x,yw,yl)∼D[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))] - 目的: 提高模型的安全性(Safety)和有用性(Helpfulness),抑制幻觉和有害输出。
4. RAG (Retrieval-Augmented Generation, 检索增强):知识的外挂
RAG 解决了模型“知识过时”和“私域数据缺失”的问题。
- 核心逻辑: 检索 + 拼接 + 生成。
- 将用户的提问转为向量,去向量数据库检索相关文档片段。
- 将检索到的片段作为背景知识,连同问题一起塞进模型的 Prompt 中。
- 模型根据背景知识生成答案。
- 本质: 模型不再仅仅依靠参数里的“死记硬背”,而是有了“开卷考试”的能力。
5. MCP (Model Context Protocol, 模型上下文协议):能力的接口
MCP 是连接模型与外部世界的最新标准。
- 核心逻辑: 定义了一套标准化的 JSON-RPC 协议,让 LLM 能够以统一的方式访问外部资源。
- 三大支柱:
- Resources (资源): 让模型能读取外部数据(如文件内容、数据库记录)。
- Prompts (提示词): 提供标准化的指令模板。
- Tools (工具): 让模型能执行动作(如发送邮件、运行脚本、查询 API)。
- 意义: 解决了“工具调用(Function Calling)”的碎片化问题。一旦有了 MCP,一个模型可以无缝对接成千上万个符合协议的外部工具。
总结:技术演进逻辑
| 阶段 | 解决什么问题? | 改变了什么? | 产出物示例 |
|---|---|---|---|
| Pre-training | 让模型拥有基础认知和语言能力 | 模型权重(大规模参数) | Llama-3-Base, Qwen2.5-7B |
| SFT | 让模型听懂指令,学会对话格式 | 模型权重(指令适应) | Llama-3-Instruct, ChatGPT |
| RLHF/DPO | 让模型更符合人类偏好,更安全 | 模型权重(价值观对齐) | 经过对齐后的最终对话模型 |
| RAG | 解决模型记不住、不知道实时信息的问题 | 输入的 Context(外部知识) | 各类基于私有文档的知识库 |
| MCP | 解决模型无法直接操作外部工具的问题 | 模型的连接能力(动作执行) | 接入本地文件或 API 的智能 Agent |
技术组合的典型工作流
- PT + SFT + DPO:打磨出一个智商高、情商高、听话的核心模型。
- 核心模型 + RAG:让这个模型拥有了查阅海量专业文档的能力。
- RAG + MCP:让这个拥有专业知识的模型,能够自动操作外部工具(如根据文档内容自动发送周报)。
更多推荐

所有评论(0)