覆盖内容:模型微调概览 → 多模态入门 → MCP 协议 → 面试高频考点 → 八篇章结业总结
前置要求:完成前七篇
定位:最后一篇不再写代码,帮你打开视野 + 准备好面试


一、模型微调——什么时候需要?什么时候不用?

1.1 RAG vs 微调:选哪个?

这是面试必问。一张表讲清楚:

RAG(你学的) 微调(Fine-tuning)
原理 检索外部文档,塞进 prompt 用你的数据重新训练模型参数
适用场景 知识频繁更新、需要溯源 改变模型风格/格式、领域术语
成本 几乎零成本(API 调用费) 需要 GPU,几百到几千元
知识更新 改文档就行,实时生效 要重新训练
典型用例 企业知识库、客服问答 让模型用特定口吻回答、学会内部术语
一句话 给模型一本书,让它开卷考 让模型背下这本书

结论:90% 的企业级场景用 RAG 就够了。微调是锦上添花,不是必需品。

1.2 微调的核心概念(了解就够)

全量微调 (Full Fine-tuning)
  改模型全部参数 → 要 8 张 A100 → 个人玩不起

LoRA (Low-Rank Adaptation) ← 现在的主流
  只训练一小撮"附加参数" → 一张 3090 就能跑
  原理:在原始权重旁边挂两个小矩阵,只训练这两个小矩阵

QLoRA (Quantized LoRA)
  LoRA + 4-bit 量化 → 一张消费级显卡(RTX 3060)就能微调 7B 模型

面试被问到,记住这句话就够了:“我了解 LoRA 的原理——不改变原始权重,通过低秩矩阵旁路做增量训练。个人项目里暂不需要微调,RAG 覆盖了大部分场景。”


二、多模态——不只是文字

2.1 什么是多模态

大模型不只能读文字,还能看图片、听声音、生成图片。

文本输入:"这是什么?"           → GPT-4 → "一只橘猫"
图片输入:[一张猫的照片]          → GPT-4V → "一只橘猫坐在窗台上"
语音输入:"今天天气怎么样?"       → Whisper → 转文字 → LLM → 回答

2.2 多模态模型一览

模型 能力 怎么用
GPT-4V / GPT-4o 图片理解 OpenAI API,messages 里加 image_url
Claude 3.5 图片 + 文档理解 同上,Anthropic API
DeepSeek-VL2 图片理解 开源,可本地部署
Whisper 语音转文字 OpenAI 开源,一行代码转写
DALL-E / Midjourney 文字生成图片 API 调用 / Discord Bot

2.3 一行代码体验多模态

# 用 GPT-4o 识别图片
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张图片里有什么?"},
            {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}}
        ]
    }]
)
print(response.choices[0].message.content)

三、MCP 协议——Agent 的"USB 接口"

3.1 什么是 MCP

Model Context Protocol,Anthropic 2024 年底推出的开放协议。

问题:你写了一个查天气的工具 → Agent 能用。别人写了一个查数据库的工具 → Agent 也能用。但每换一个 AI 平台(Claude、GPT、Gemini),工具代码都要重写一遍。

MCP 解决这个:定义一套标准接口,工具写一次,所有 AI 都能调用。

之前:
  GPT Agent → 天气工具 (OpenAI 格式)
  Claude   → 天气工具 (Anthropic 格式,代码要重写)
  Gemini   → 天气工具 (Google 格式,代码又要重写)

有了 MCP:
  GPT Agent ─┐
  Claude    ─┼─→ MCP Server (天气工具) ← 写一次
  Gemini    ─┘

3.2 MCP 会不会替代你学的 Function Calling?

不会。MCP 是传输层的标准,Function Calling 是调用模式。面试可以这样说:

“MCP 解决的是工具发现和通信的标准化问题。Function Calling 解决的是 AI 什么时候调用工具的决策问题。两者互补。我理解 MCP 相当于工具的 USB-C 接口,Function Calling 相当于大脑判断该用哪个接口。”


四、面试高频考点

基于前七篇学的,面试最可能问这些:

4.1 RAG 相关

Q:RAG 的完整流程?

文档加载 → 文本分块(chunk_size + overlap)→ Embedding 向量化 → 存入向量数据库 → 用户提问 → 语义检索 Top K → 拼入 Prompt → LLM 生成答案。我会特别强调分块策略——chunk_size 太大语义稀释,太小碎片化,一般 500 字符 + 100 重叠。

Q:RAG 怎么优化召回率?

三个方向:① 调分块参数;② Hybrid Search(BM25 关键词 + 向量语义混合检索);③ Rerank 重排序。我做过对比实验,chunk_size 从 200 到 1200,命中率差很多。

Q:RAG 和微调怎么选?

见上文 1.1 的表格,背下来。

4.2 Agent 相关

Q:Agent 循环(ReAct)的原理?

Reasoning + Acting。Agent 不是一次调用就完事——它不断循环:收到消息 → 思考要不要调工具 → 调工具拿结果 → 再思考 → 直到能直接回答。我手写过这个循环,核心就是一个 while 循环,每轮检查 tool_calls,执行后把结果塞回 messages。

Q:Function Calling 怎么处理工具调用失败?

把错误信息作为 tool 的返回内容传给 LLM,让 LLM 自己决定怎么处理——换参数重试、换另一个工具、或者跟用户说做不了。关键是不要让程序崩溃。

Q:你用的 Agent 框架是什么?为什么选它?

我先手写了 Agent 循环理解底层原理,然后改用 LangGraph。选 LangGraph 因为:① 有状态图天然支持复杂 Agent 流程;② 支持 Human-in-the-loop;③ 生态活跃,是当前最主流的 Agent 框架。

4.3 系统设计相关

Q:设计一个智能客服系统?

核心架构:用户提问 → 意图识别(Function Calling 判断是 FAQ、工单查询还是转人工)→ RAG 检索知识库 → LLM 生成回答 → 如果置信度低转人工。技术栈:FastAPI + LangGraph + ChromaDB + DeepSeek。难点在意图识别准确率和知识库维护。

4.4 陷阱题

Q:大模型有幻觉怎么办?

三个层面:① RAG 提供事实依据(开卷考试不容易瞎编);② System Prompt 约束"不知道就说不知道";③ 生产环境加一层事实校验(检索结果和回答做相似度对比)。

Q:你怎么控制 Token 成本?

① 缓存常见问题的回答;② 对话历史做摘要压缩而不是全量传;③ 调整 max_tokens 限制输出长度;④ 选择性价比高的模型(DeepSeek 比 GPT-4 便宜 50 倍,质量够用)。


五、你的简历项目清单

学完八篇章,你有了这些可以直接写进简历的东西:

项目 技术栈 简历亮点写法
知识库问答系统 Python + LangChain + ChromaDB + DeepSeek “独立完成 RAG 全流程:文档加载→分块→向量化→检索→生成,支持 PDF/Word/TXT 多格式,回答带来源追溯”
Function Calling Agent Python + LangGraph + DeepSeek “手写 ReAct Agent 循环,6 个工具(天气/计算器/数据库/网络/文件),多轮记忆,支持流式输出”
AI 智能助手 Web 应用 FastAPI + Vue3 + LangGraph + SQLite “全栈项目:JWT 鉴权、SSE 流式对话、Agent/RAG 双模式切换,从后端 API 到前端 UI 独立完成”

六、八篇章结业总结

第一篇章  Python 基础       → 能写脚本
第二篇章  API 调用入门      → 能调大模型
第三篇章  Prompt Engineering → 能控制 AI 输出
第四篇章  RAG 知识检索      → 能给 AI 喂数据
第五篇章  Function Calling   → 能让 AI 干活
第六篇章  LangChain/LangGraph → 能用框架加速
第七篇章  项目实战          → 能做出完整产品
第八篇章  进阶与面试        → 能通过面试

从零到大模型应用开发者,90 天的路你走完了。


最后一句话:你不是"会调 API 的人",你是"理解 RAG 底层原理、手写过 Agent 循环、能独立完成全栈 AI 应用的人"。面试时把这个定位讲清楚。


附录:推荐后续学习方向

方向 优先级 理由
深入 LangGraph ⭐⭐⭐⭐⭐ Agent 编排是第一生产力
学 Docker + K8s ⭐⭐⭐⭐ 部署微服务,企业必问
了解 Dify / Coze ⭐⭐⭐ 低代码 Agent 平台,快速出原型
深入 Embedding 模型 ⭐⭐⭐ RAG 效果的天花板在 Embedding
微调实践 ⭐⭐ 简历加分,但不是必需
MCP 开发 ⭐⭐ 新协议,关注但不必深入
Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐