1. 下载转换模型所需要的 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git

2. 编译llama.cpp,生成./main./quantize二进制文件

windows要先安装有**cmake**工具


**Cmake官网下载 : **

Download CMake

**Cmake安装教程 : **

Windows下CMake安装教程_window 安装cmake-CSDN博客


3. 安装必要的python

pip install -r llama.cpp/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

后面的-i [https://pypi.tuna.tsinghua.edu.cn/simple为指定使用清华源下载, 国内速度更快


4. 转换Qwen2-7B至未量化的版本

python llama.cpp/convert_hf_to_gguf.py Qwen2-7B-Instruct/ --outfile Qwen2-7B-Instruct.gguf

5. 对生成的GGUF模型按照指定精度量化

./llama.cpp/quantize Qwen2-7B-Instruct.gguf Qwen2-7B-Instruct-Q5_K_M.gguf Q5_K_M

6. 编辑ollama用的模型定义文件

FROM ./Qwen2-7B-Instruct-Q5_K_M.gguf

7. 导入ollama

ollama create Qwen2-7B-Instruct-Q5_K_M -f Qwen2-7B-Instruct-Q5_K_M.Modelfile

8. 查看和运行Qwen2大模型

ollama list
ollama run Qwen2-7B-Instruct
Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐