开源、离线、免费商用的大模型知识库来袭！快速搭建个人和企业私有智能知识库！

AAI机器之心

1365人浏览 · 2024-12-13 11:25:48

AAI机器之心 · 2024-12-13 11:25:48 发布

你是否也有这样的桌面？为了方便找材料，全部放到了桌面，最后结果就是“用起一时爽，找起火葬场”。

（图片来源于网络）

你是否也是盘即个人电脑磁使再怎么不够用，也舍不得删除几年前做的运维方案、架构方案、设计方案文档？最后即使文档都保存了，存云盘了，到用的时候依旧发现找不到，找的也不是想要的。

|大模型知识库来袭

现在不用再担心了找不到材料文档了，GitHub开源了一款可离线，支持检索增强生成(RAG)大模型的知识库项目。虽然开源时间不长，但是势头很猛，已经斩获25K Star。具备以下特点：

项目利用 langchain 思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案；
项目支持的开源 LLM 与 Embedding 模型，本项目可实现全部使用开源模型离线私有部署。与此同时，本项目也支持 OpenAI GPT API 的调用，并将在后续持续扩充对各类模型及模型 API 的接入；
项目方案采用Apache License，可以免费商用，无需付费。

总结下重点就是：

支持中文，可私有化部署，免费商用！
支持中文，可私有化部署，免费商用！
支持中文，可私有化部署，免费商用！

重要的事情说三遍********

项目名称：Langchain-Chatchat``项目地址：https://github.com/chatchat-space/Langchain-Chatchat

📺 原理介绍视频（点击可看视频）

从文档处理角度来看，实现流程如下：

技术路线图：

Langchain 应用
基础React形式的Agent实现，包括调用计算器等
Langchain 自带的Agent实现和调用
智能调用不同的数据库和联网知识
Bing 搜索
DuckDuckGo 搜索
Metaphor 搜索
接入非结构化文档
结构化数据接入
分词及召回
.txt, .rtf, .epub, .srt
.eml, .msg
.html, .xml, .toml, .mhtml
.json, .jsonl
.md, .rst
.docx, .doc, .pptx, .ppt, .odt
.enex
.pdf
.jpg, .jpeg, .png, .bmp
.py, .ipynb
.csv, .tsv
.xlsx, .xls, .xlsd
接入不同类型 TextSplitter
优化依据中文标点符号设计的 ChineseTextSplitter
本地数据接入
搜索引擎接入
Agent 实现
LLM 模型接入
支持通过调用 FastChat api 调用 llm
支持 ChatGLM API 等 LLM API 的接入
支持 Langchain 框架支持的LLM API 接入
Embedding 模型接入
支持调用 HuggingFace 中各开源 Emebdding 模型
支持 OpenAI Embedding API 等 Embedding API 的接入
支持智谱AI、百度千帆、千问、MiniMax 等在线 Embedding API 的接入
基于 FastAPI 的 API 方式调用
Web UI
基于 Streamlit 的 Web UI

**|**大模型知识库来袭

Docker 部署

一行代码搞定，但是建议网速不好的同学不要尝试

docker run -d --gpus all -p 80:8501 registry.cn-beijing.aliyuncs.com/chatchat/chatchat:0.2.7

常规模式本地部署方案

1. 环境配置

# 首先，确信你的机器安装了 Python 3.8 - 3.10 版本``$ python --version``Python 3.8.13``   ``# 如果低于这个版本，可使用conda安装环境``$ conda create -p /your_path/env_name python=3.8``   ``# 激活环境``$ source activate /your_path/env_name``   ``# 或，conda安装，不指定路径, 注意以下，都将/your_path/env_name替换为env_name``$ conda create -n env_name python=3.8``$ conda activate env_name # Activate the environment``   ``# 更新py库``$ pip3 install --upgrade pip``   ``# 关闭环境``$ source deactivate /your_path/env_name``   ``# 删除环境``$ conda env remove -p  /your_path/env_name

接着，开始安装项目的依赖

# 拉取仓库``$ git clone --recursive https://github.com/chatchat-space/Langchain-Chatchat.git``   ``# 进入目录``$ cd Langchain-Chatchat``   ``# 安装全部依赖``$ pip install -r requirements.txt``   ``# 默认依赖包括基本运行环境（FAISS向量库）。以下是可选依赖：``- 如果要使用 milvus/pg_vector 等向量库，请将 requirements.txt 中相应依赖取消注释再安装。``- 如果要开启 OCR GPU 加速，请安装 rapidocr_paddle[gpu]``- 如果要使用在线 API 模型，请安装对用的 SDK``

此外，为方便用户 API 与 webui 分离运行，可单独根据运行需求安装依赖包。

如果只需运行 API，可执行：

$ pip install -r requirements_api.txt``   ``# 默认依赖包括基本运行环境（FAISS向量库）。如果要使用 milvus/pg_vector 等向量库，请将 requirements.txt 中相应依赖取消注释再安装。

如果只需运行 WebUI，可执行：

$ pip install -r requirements_webui.txt

2. 模型下载

如需在本地或离线环境下运行本项目，需要首先将项目所需的模型下载至本地，通常开源 LLM 与 Embedding 模型可以从 HuggingFace 下载。

以本项目中默认使用的 LLM 模型 THUDM/ChatGLM3-6B 与 Embedding 模型 BAAI/bge-large-zh 为例：

下载模型需要先安装 Git LFS ，然后运行

$ git lfs install``$ git clone https://huggingface.co/THUDM/chatglm3-6b``$ git clone https://huggingface.co/BAAI/bge-large-zh

‍

3. 初始化知识库和配置文件

按照下列方式初始化自己的知识库和简单的复制配置文件

$ python copy_config_example.py``$ python init_database.py --recreate-vs

4. 一键启动

按照以下命令启动项目

$ python startup.py -a

最轻模式本地部署方案

该模式的配置方式与常规模式相同，但无需安装 torch 等重依赖，通过在线API实现 LLM 和 Ebeddings 相关功能，适合没有显卡的电脑使用。

$ pip install -r requirements_lite.txt``$ python startup.py -a --lite

Demo示例

Web UI 对话界面：

Web UI 知识库管理页面：

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【MCP探索实践】Playwright MCP：微软打造的AI自动化利器，一键搞定浏览器操作

MCP技术社区

通义灵码2.5来袭！MCP 功能直接让开发效率提升300%（附实战案例）

通义灵码2.5是阿里云推出的AI编码助手，以智能协作为核心，深度融合开发全流程。其三大升级点包括：编程智能体实现任务自主规划、MCP工具生态支持自然语言生成SQL、记忆进化系统个性化适配开发者习惯。通过自然语言即可完成数据库操作、代码生成与优化，大幅提升开发效率。此外，还具备工程级变更管理、多文件协同编辑及版本控制功能，适用于多种IDE环境，为企业提供安全高效的开发解决方案。