第八篇章：进阶视野 & 面试准备——从学习者到求职者

weixin_72167552

150人浏览 · 2026-06-24 17:14:05

weixin_72167552 · 2026-06-24 17:14:05 发布

覆盖内容：模型微调概览 → 多模态入门 → MCP 协议 → 面试高频考点 → 八篇章结业总结
前置要求：完成前七篇
定位：最后一篇不再写代码，帮你打开视野 + 准备好面试

一、模型微调——什么时候需要？什么时候不用？

1.1 RAG vs 微调：选哪个？

这是面试必问。一张表讲清楚：

	RAG（你学的）	微调（Fine-tuning）
原理	检索外部文档，塞进 prompt	用你的数据重新训练模型参数
适用场景	知识频繁更新、需要溯源	改变模型风格/格式、领域术语
成本	几乎零成本（API 调用费）	需要 GPU，几百到几千元
知识更新	改文档就行，实时生效	要重新训练
典型用例	企业知识库、客服问答	让模型用特定口吻回答、学会内部术语
一句话	给模型一本书，让它开卷考	让模型背下这本书

结论：90% 的企业级场景用 RAG 就够了。微调是锦上添花，不是必需品。

1.2 微调的核心概念（了解就够）

全量微调 (Full Fine-tuning)
  改模型全部参数 → 要 8 张 A100 → 个人玩不起

LoRA (Low-Rank Adaptation) ← 现在的主流
  只训练一小撮"附加参数" → 一张 3090 就能跑
  原理：在原始权重旁边挂两个小矩阵，只训练这两个小矩阵

QLoRA (Quantized LoRA)
  LoRA + 4-bit 量化 → 一张消费级显卡（RTX 3060）就能微调 7B 模型

面试被问到，记住这句话就够了：“我了解 LoRA 的原理——不改变原始权重，通过低秩矩阵旁路做增量训练。个人项目里暂不需要微调，RAG 覆盖了大部分场景。”

二、多模态——不只是文字

2.1 什么是多模态

大模型不只能读文字，还能看图片、听声音、生成图片。

文本输入："这是什么？"           → GPT-4 → "一只橘猫"
图片输入：[一张猫的照片]          → GPT-4V → "一只橘猫坐在窗台上"
语音输入："今天天气怎么样？"       → Whisper → 转文字 → LLM → 回答

2.2 多模态模型一览

模型	能力	怎么用
GPT-4V / GPT-4o	图片理解	OpenAI API，`messages` 里加 `image_url`
Claude 3.5	图片 + 文档理解	同上，Anthropic API
DeepSeek-VL2	图片理解	开源，可本地部署
Whisper	语音转文字	OpenAI 开源，一行代码转写
DALL-E / Midjourney	文字生成图片	API 调用 / Discord Bot

2.3 一行代码体验多模态

# 用 GPT-4o 识别图片
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张图片里有什么？"},
            {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}}
        ]
    }]
)
print(response.choices[0].message.content)

三、MCP 协议——Agent 的"USB 接口"

3.1 什么是 MCP

Model Context Protocol，Anthropic 2024 年底推出的开放协议。

问题：你写了一个查天气的工具 → Agent 能用。别人写了一个查数据库的工具 → Agent 也能用。但每换一个 AI 平台（Claude、GPT、Gemini），工具代码都要重写一遍。

MCP 解决这个：定义一套标准接口，工具写一次，所有 AI 都能调用。

之前：
  GPT Agent → 天气工具 (OpenAI 格式)
  Claude   → 天气工具 (Anthropic 格式，代码要重写)
  Gemini   → 天气工具 (Google 格式，代码又要重写)

有了 MCP：
  GPT Agent ─┐
  Claude    ─┼─→ MCP Server (天气工具) ← 写一次
  Gemini    ─┘

3.2 MCP 会不会替代你学的 Function Calling？

不会。MCP 是传输层的标准，Function Calling 是调用模式。面试可以这样说：

“MCP 解决的是工具发现和通信的标准化问题。Function Calling 解决的是 AI 什么时候调用工具的决策问题。两者互补。我理解 MCP 相当于工具的 USB-C 接口，Function Calling 相当于大脑判断该用哪个接口。”

四、面试高频考点

基于前七篇学的，面试最可能问这些：

4.1 RAG 相关

Q：RAG 的完整流程？

文档加载 → 文本分块（chunk_size + overlap）→ Embedding 向量化 → 存入向量数据库 → 用户提问 → 语义检索 Top K → 拼入 Prompt → LLM 生成答案。我会特别强调分块策略——chunk_size 太大语义稀释，太小碎片化，一般 500 字符 + 100 重叠。

Q：RAG 怎么优化召回率？

三个方向：① 调分块参数；② Hybrid Search（BM25 关键词 + 向量语义混合检索）；③ Rerank 重排序。我做过对比实验，chunk_size 从 200 到 1200，命中率差很多。

Q：RAG 和微调怎么选？

见上文 1.1 的表格，背下来。

4.2 Agent 相关

Q：Agent 循环（ReAct）的原理？

Reasoning + Acting。Agent 不是一次调用就完事——它不断循环：收到消息 → 思考要不要调工具 → 调工具拿结果 → 再思考 → 直到能直接回答。我手写过这个循环，核心就是一个 while 循环，每轮检查 tool_calls，执行后把结果塞回 messages。

Q：Function Calling 怎么处理工具调用失败？

把错误信息作为 tool 的返回内容传给 LLM，让 LLM 自己决定怎么处理——换参数重试、换另一个工具、或者跟用户说做不了。关键是不要让程序崩溃。

Q：你用的 Agent 框架是什么？为什么选它？

我先手写了 Agent 循环理解底层原理，然后改用 LangGraph。选 LangGraph 因为：① 有状态图天然支持复杂 Agent 流程；② 支持 Human-in-the-loop；③ 生态活跃，是当前最主流的 Agent 框架。

4.3 系统设计相关

Q：设计一个智能客服系统？

核心架构：用户提问 → 意图识别（Function Calling 判断是 FAQ、工单查询还是转人工）→ RAG 检索知识库 → LLM 生成回答 → 如果置信度低转人工。技术栈：FastAPI + LangGraph + ChromaDB + DeepSeek。难点在意图识别准确率和知识库维护。

4.4 陷阱题

Q：大模型有幻觉怎么办？

三个层面：① RAG 提供事实依据（开卷考试不容易瞎编）；② System Prompt 约束"不知道就说不知道"；③ 生产环境加一层事实校验（检索结果和回答做相似度对比）。

Q：你怎么控制 Token 成本？

① 缓存常见问题的回答；② 对话历史做摘要压缩而不是全量传；③ 调整 max_tokens 限制输出长度；④ 选择性价比高的模型（DeepSeek 比 GPT-4 便宜 50 倍，质量够用）。

五、你的简历项目清单

学完八篇章，你有了这些可以直接写进简历的东西：

项目	技术栈	简历亮点写法
知识库问答系统	Python + LangChain + ChromaDB + DeepSeek	“独立完成 RAG 全流程：文档加载→分块→向量化→检索→生成，支持 PDF/Word/TXT 多格式，回答带来源追溯”
Function Calling Agent	Python + LangGraph + DeepSeek	“手写 ReAct Agent 循环，6 个工具（天气/计算器/数据库/网络/文件），多轮记忆，支持流式输出”
AI 智能助手 Web 应用	FastAPI + Vue3 + LangGraph + SQLite	“全栈项目：JWT 鉴权、SSE 流式对话、Agent/RAG 双模式切换，从后端 API 到前端 UI 独立完成”

六、八篇章结业总结

第一篇章  Python 基础       → 能写脚本
第二篇章  API 调用入门      → 能调大模型
第三篇章  Prompt Engineering → 能控制 AI 输出
第四篇章  RAG 知识检索      → 能给 AI 喂数据
第五篇章  Function Calling   → 能让 AI 干活
第六篇章  LangChain/LangGraph → 能用框架加速
第七篇章  项目实战          → 能做出完整产品
第八篇章  进阶与面试        → 能通过面试

从零到大模型应用开发者，90 天的路你走完了。

最后一句话：你不是"会调 API 的人"，你是"理解 RAG 底层原理、手写过 Agent 循环、能独立完成全栈 AI 应用的人"。面试时把这个定位讲清楚。

附录：推荐后续学习方向

方向	优先级	理由
深入 LangGraph	⭐⭐⭐⭐⭐	Agent 编排是第一生产力
学 Docker + K8s	⭐⭐⭐⭐	部署微服务，企业必问
了解 Dify / Coze	⭐⭐⭐	低代码 Agent 平台，快速出原型
深入 Embedding 模型	⭐⭐⭐	RAG 效果的天花板在 Embedding
微调实践	⭐⭐	简历加分，但不是必需
MCP 开发	⭐⭐	新协议，关注但不必深入

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

Go语言的runtime.GOMAXPROCS中的任务限制

在Go的并发模型中，runtime.GOMAXPROCS函数扮演了关键角色，它用于设置程序运行时可以使用的最大CPU核心数。每个核心上运行的Go协程（goroutine）会通过调度器进行切换，而GOMAXPROCS的值决定了同时执行的任务上限。通过runtime.NumCPU()可以获取当前机器的CPU核心数，而结合GOMAXPROCS的调整，开发者可以更精准地控制程序行为。在性能调优时，可以使用

MCP技术社区

游戏开发工具插件开发与脚本编写

在游戏开发的世界里，工具插件与脚本编写是开发者手中的魔法钥匙。无论是Unity、Unreal Engine还是Godot，强大的扩展能力让开发者能够定制专属工具，提升工作效率，甚至实现引擎本身无法直接支持的功能。例如，Unity的Asset Store中许多工具都是通过插件实现的，如地形生成器或AI行为树编辑器。脚本是游戏逻辑的“神经中枢”，通常用Lua、Python或引擎专用语言（如Unity的

MCP技术社区

LangChain 框架入门：构建LLM应用

LangChain框架应运而生，它通过模块化设计简化了LLM应用的开发流程，让开发者能够快速构建智能对话、知识问答等场景的应用。这一特性尤其适合构建知识密集型应用，比如企业内部的智能客服或法律咨询系统，让模型能够基于最新数据生成准确回答。它将LLM应用拆分为多个可复用的组件，如模型调用、记忆管理、工具集成等。例如，通过简单的链式调用（Chain），就能实现“用户输入-模型处理-结果输出”的完整流程