RAG从入门到精通：环境配置与DeepSeek API实战，这一篇就够了！

闵浮龙

405人浏览 · 2026-03-09 11:42:12

闵浮龙 · 2026-03-09 11:42:12 发布

最近总有人问我：“想学RAG（检索增强生成），但一上来就被环境配置劝退了怎么办？”别急，今天我就手把手带你搞定RAG项目的环境准备和DeepSeek API配置，让你直接从“配环境配到怀疑人生”变成“环境配置一把梭”！

无论你是刚入门的小白，还是想快速搭建RAG原型的老手，这篇文章都能帮你节省至少2小时的踩坑时间。全程干货，建议收藏！

1. 为什么环境准备是RAG项目的“第一关”？

RAG的核心是把外部知识库（比如PDF、数据库）和大语言模型结合起来。这就涉及三个关键部分：

Python环境：管理各种库的依赖关系，避免“我这能跑，你那报错”。
向量数据库：把文档变成向量存起来，方便检索。
LLM接口：调用大模型生成答案。

如果环境没配好，后面代码写得再漂亮也是白搭。所以，咱们从最基础的开始，一步步搭建一个干净、可复现的开发环境。

2. Python环境配置（用Conda，真香！）

强烈推荐使用 Conda 创建独立的虚拟环境。为什么？

避免全局Python被各种项目依赖搞乱。
方便切换Python版本，比如RAG项目可能需要3.10。
一键导出环境，团队协作或换机器直接复现。

操作步骤：

bash

# 创建名为rag_course的虚拟环境，指定Python 3.10
conda create -n rag_course python=3.10 -y

# 激活环境（每次打开终端都要激活哦）
conda activate rag_course

激活后，命令行前面会出现 (rag_course) 字样，说明你已经进入虚拟环境了。
验证一下：

bash

python --version
# 输出应为 Python 3.10.x

小提示：如果你还没装Conda，可以装Miniconda（轻量级）或者Anaconda（包含很多数据科学库）。安装后记得重启终端。

3. 安装依赖库（requirements.txt详解）

接下来，我们安装RAG项目所需的依赖。先创建一个 requirements.txt 文件，把下面的内容复制进去：

txt

# LLM API调用（兼容DeepSeek、OpenAI等）
openai >= 1.0.0
requests

# 向量数据库（轻量级、本地运行）
chromadb

# 文本嵌入模型（把文本转成向量）
sentence-transformers

# 文本分割器（把长文档切成小块）
langchain-text-splitters

# PDF解析（读取PDF中的文字）
pypdf  # 或者 PyPDF2，推荐pypdf，更新维护更好

# 环境变量管理（安全存储API Key）
python-dotenv

每个库的作用（面试/写简历时能用上）：

openai>=1.0.0：不仅支持OpenAI，还兼容DeepSeek等API（后面细说）。
chromadb：本地向量数据库，无需部署，适合学习和原型验证。
sentence-transformers：加载开源的嵌入模型（比如all-MiniLM-L6-v2），将文本转为向量。
langchain-text-splitters：LangChain提供的文本分割器，支持按字符、递归、Token等切分。
pypdf：解析PDF文档，提取文本（如果你有Word文档，可以加python-docx）。
python-dotenv：从.env文件加载环境变量，避免把API Key硬编码在代码里。

安装命令：

bash

pip install -r requirements.txt

如果速度慢，可以临时用国内镜像：

bash

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：安装 sentence-transformers 时会自动下载PyTorch（约500MB），建议确保网络稳定。如果只想测试，可以先装chromadb和openai，跳过Embedding部分。

4. DeepSeek API 配置（省钱又强大的选择）

现在市面上LLM很多，DeepSeek的API性价比超高（尤其是它的上下文窗口和价格），而且兼容OpenAI的接口格式，所以我们用它来演示。

4.1 申请API Key

访问 DeepSeek开放平台注册账号。
在控制台找到“API Keys”菜单，创建一个新的Key，复制下来（注意：关闭弹窗后Key就看不到了，立刻保存！）。

4.2 配置环境变量

在项目根目录下创建一个 .env 文件，内容如下：

bash

DEEPSEEK_API_KEY=sk-你的API密钥
DEEPSEEK_BASE_URL=https://api.deepseek.com

为什么用.env？
避免把API Key直接写在代码里，防止上传到GitHub时泄露。记得把 .env 加入 .gitignore。

4.3 测试调用DeepSeek API

用 openai 库调用DeepSeek，写一个简单的测试脚本 test_deepseek.py：

python

import os
from openai import OpenAI
from dotenv import load_dotenv

# 加载.env中的环境变量
load_dotenv()

client = OpenAI(
    api_key=os.getenv("DEEPSEEK_API_KEY"),
    base_url=os.getenv("DEEPSEEK_BASE_URL")
)

response = client.chat.completions.create(
    model="deepseek-chat",  # DeepSeek的模型名
    messages=[
        {"role": "system", "content": "你是一个有用的助手"},
        {"role": "user", "content": "介绍一下RAG"}
    ],
    stream=False
)

print(response.choices[0].message.content)

运行：

bash