本地AI大模型量化成GGUF

YaeMivo

866人浏览 · 2024-07-31 10:35:10

YaeMivo · 2024-07-31 10:35:10 发布

文章目录

1. 下载转换模型所需要的 `llama.cpp`

git clone https://github.com/ggerganov/llama.cpp.git

2. 编译`llama.cpp`,生成`./main`和`./quantize`二进制文件

windows要先安装有**cmake**工具

**Cmake官网下载 : **

Download CMake

**Cmake安装教程 : **

Windows下CMake安装教程_window 安装cmake-CSDN博客

3. 安装必要的`python`包

pip install -r llama.cpp/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

后面的-i [https://pypi.tuna.tsinghua.edu.cn/simple为指定使用清华源下载, 国内速度更快

4. 转换Qwen2-7B至未量化的版本

python llama.cpp/convert_hf_to_gguf.py Qwen2-7B-Instruct/ --outfile Qwen2-7B-Instruct.gguf

5. 对生成的GGUF模型按照指定精度量化

./llama.cpp/quantize Qwen2-7B-Instruct.gguf Qwen2-7B-Instruct-Q5_K_M.gguf Q5_K_M

6. 编辑ollama用的模型定义文件

FROM ./Qwen2-7B-Instruct-Q5_K_M.gguf

7. 导入ollama

ollama create Qwen2-7B-Instruct-Q5_K_M -f Qwen2-7B-Instruct-Q5_K_M.Modelfile

8. 查看和运行Qwen2大模型

ollama list
ollama run Qwen2-7B-Instruct

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】