【大模型】一个简单程序看透 RAG 的核心原理，理解优化 RAG 的关键要点

通过这个简单的程序，我们不仅看到了 RAG 系统的完整实现，更重要的是理解了每个组件的作用和importance。特别是检索器的准确性，它直接决定了整个系统的表现。在实际应用中，除了选择合适的大语言模型，我们更应该关注如何提升检索的准确性，包括：优化文档的切分策略选择合适的 embedding 模型调整向量检索的参数改进相似度计算方法只有确保检索器能够准确找到相关文档，RAG 系统才能充分发挥其潜

江湖人称麻花滕

780人浏览 · 2024-10-31 21:06:39

江湖人称麻花滕 · 2024-10-31 21:06:39 发布

想让大语言模型不再胡说八道，检索增强生成（RAG）是一个可靠的解决方案。但很多人对 RAG 的印象可能是：需要复杂的架构、繁琐的组件配置、以及大量的调优工作。

事实上，通过一个不到 200 行的 Python 程序，我们就能完整展示 RAG 是如何工作的。在这篇文章中，你将看到：

如何用最简单的代码实现一个完整的 RAG 系统
每个核心组件（检索器、向量数据库、大语言模型）是如何协同工作的
最关键的是：你会明白为什么检索的准确性决定了整个系统的表现

我们将通过 LangChain 框架来实现这个示例。当你看完这篇文章，不仅能理解 RAG 的工作原理，还能知道在实际应用中应该把注意力放在哪里。

您可以在文章末尾找到本文中的完整程序。

RAG 的工作原理

RAG 系统通过以下 5 个关键步骤来工作：

1. 准备文档

首先，我们需要准备知识库文档。在示例代码中，我们创建了一个包含宠物相关信息的简单文档集合：

from langchain_core.documents import Document  
  
documents = [  
    Document(  
        page_content="狗是很好的伴侣，以忠诚和友好而闻名。",  
        metadata={"source": "mammal-pets-doc"},  
    ),  
    Document(  
        page_content="猫是独立的宠物，通常喜欢自己的空间。",  
        metadata={"source": "mammal-pets-doc"},  
    ),  
    Document(  
        page_content="金鱼是初学者喜欢的宠物，只需要相对简单的照顾。",  
        metadata={"source": "fish-pets-doc"},  
    ),  
    Document(  
        page_content="鹦鹉是聪明的鸟类，能够模仿人类说话。",  
        metadata={"source": "bird-pets-doc"},  
    ),  
    Document(  
        page_content="兔子是社交动物，需要大量空间来跳跃。",  
        metadata={"source": "mammal-pets-doc"},  
    ),  
]

每个文档都包含实际内容（page_content）和元数据（metadata）。元数据可以用来标记文档的来源、类型等信息。

2. 向量化存储

下一步是将文档转换为向量并存储到向量数据库中：

from langchain_chroma import Chroma  
from langchain_openai import AzureOpenAIEmbeddings  
  
embeddings = AzureOpenAIEmbeddings(  
    azure_endpoint=env_vars.get("AZURE_OPENAI_ENDPOINT"),  
    azure_deployment=env_vars.get("AZURE_OPENAI_EMBEDDING_DEPLOYMENT_NAME"),  
    openai_api_version=env_vars.get("AZURE_OPENAI_EMBEDDING_API_VERSION"),  
    api_key=env_vars.get("AZURE_OPENAI_API_KEY"),  
)  
  
vectorstore = Chroma.from_documents(  
    documents,  
    embedding=embeddings,  
)

这个步骤中：

使用 AzureOpenAIEmbeddings 将文本转换为向量
使用 Chroma 向量数据库存储这些向量
每个文档的内容都被转换为高维向量，便于后续相似性搜索

3. 创建检索器

创建一个检索器（retriever）用于后续的文档检索：

retriever = vectorstore.as_retriever(  
    search_type="similarity",  
    search_kwargs={"k": 1},  
)

这里我们：

使用 similarity 搜索方式，基于向量相似度检索文档
设置 k=1 表示每次检索返回最相关的一个文档

4. 准备提示模板

定义用于 RAG 的标准提示词模板：

template = """  
根据提供的上下文回答这个问题。  
  
问题: {question}  
  
上下文:  
{context}  
  
回答:  
"""  
  
prompt = ChatPromptTemplate.from_template(template)

提示词模板：

清晰定义了问题、上下文和答案的结构
指导模型使用检索到的上下文来生成回答

5. 实现 RAG 链

最后，将所有组件组合成完整的 RAG 链：

def rag_chain(question: str) -> str:  
    # 检索相关文档  
    retrieved_docs = retriever.invoke(question)  
      
    # 将检索到的文档格式化为上下文  
    context = "\n".join(doc.page_content for doc in retrieved_docs)  
      
    # 使用问题和上下文格式化提示  
    formatted_prompt = prompt.format(question=question, context=context)  
      
    # 获取模型的响应  
    response = model.invoke(formatted_prompt)  
          
    return response.content

在这个实现中，检索器（retriever）和 embeddings 引擎扮演着核心角色：

检索器的关键作用：

检索器负责理解用户问题并找到相关文档
它通过 embeddings 引擎将问题转换为向量
在向量空间中查找最相似的文档
将找到的相关文档作为上下文提供给大模型

工作流程：

用户提出问题（如"最好的宠物是什么？"）
检索器利用 embeddings 进行向量相似度搜索
找到最相关的文档（比如关于不同宠物的描述）
大模型根据这些相关文档和原始问题生成最终答案

答案生成过程：

检索器找到相关文档
文档内容被格式化为上下文
大模型根据上下文和问题生成答案
最终答案会基于检索到的具体知识，而不是模型的泛化能力

这个过程充分展示了检索增强生成（RAG）的核心理念：检索器负责找到相关信息，而大模型负责理解和生成答案。这种分工使得系统能够提供更准确、更有依据的回答。需要特别强调的是，检索器的准确性直接决定了最终答案的质量 —— 如果检索器无法提供正确的上下文信息，即使是最强大的语言模型也无法生成准确的答案。这就像是在考试中，如果提供给学生的参考资料是错误的或不相关的，那么无论学生多么优秀，也无法得出正确的答案。因此，在构建 RAG 系统时，确保检索器的准确性和可靠性是至关重要的。

RAG 的局限性

虽然 RAG 是一个强大的架构，但也存在一些局限：

向量相似度的局限：基于向量相似度的检索可能无法捕捉到语义层面的细微差别，有时会检索到表面相似但实际不相关的内容。
上下文窗口限制：由于模型的输入长度限制，我们往往只能提供有限的上下文内容，可能会遗漏重要信息。
检索质量依赖于文档质量：如果知识库文档质量不高或不完整，即使检索系统工作正常，也无法提供好的答案。
计算成本：向量化和存储大量文档需要较大的计算和存储资源，特别是在大规模应用中。

总结

通过这个简单的程序，我们不仅看到了 RAG 系统的完整实现，更重要的是理解了每个组件的作用和importance。特别是检索器的准确性，它直接决定了整个系统的表现。在实际应用中，除了选择合适的大语言模型，我们更应该关注如何提升检索的准确性，包括：

优化文档的切分策略
选择合适的 embedding 模型
调整向量检索的参数
改进相似度计算方法

只有确保检索器能够准确找到相关文档，RAG 系统才能充分发挥其潜力，帮助大语言模型生成更准确的答案。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

8种封装的1700V国产碳化硅(SiC)功率模块产品介绍及应用

MCP技术社区

（一篇入门）汽车电子电器之电机MCU控制器四

MCP技术社区

基于Echarts的甘特图实现与封装实战

Echarts（Enterprise Charts）是由百度开源的一款功能强大、高度可定制的JavaScript数据可视化库，广泛应用于各类企业级Web应用中。其核心设计理念是“以数据驱动视图”，通过声明式配置即可实现复杂图表的渲染与交互。在现代前端工程化背景下，Echarts不仅支持静态图表展示，更具备动态更新、大数据量处理和跨平台兼容等高级能力，成为构建高性能数据看板、实时监控系统和项目管理工