本地AI大模型量化成GGUF
本地AI大模型量化成GGUF
·
文章目录
1. 下载转换模型所需要的 llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
2. 编译llama.cpp
,生成./main
和./quantize
二进制文件
windows要先安装有
**cmake**
工具
**Cmake官网下载 : **
**Cmake安装教程 : **
3. 安装必要的python
包
pip install -r llama.cpp/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
后面的-i [https://pypi.tuna.tsinghua.edu.cn/simple
为指定使用清华源下载, 国内速度更快
4. 转换Qwen2-7B至未量化的版本
python llama.cpp/convert_hf_to_gguf.py Qwen2-7B-Instruct/ --outfile Qwen2-7B-Instruct.gguf
5. 对生成的GGUF模型按照指定精度量化
./llama.cpp/quantize Qwen2-7B-Instruct.gguf Qwen2-7B-Instruct-Q5_K_M.gguf Q5_K_M
6. 编辑ollama用的模型定义文件
FROM ./Qwen2-7B-Instruct-Q5_K_M.gguf
7. 导入ollama
ollama create Qwen2-7B-Instruct-Q5_K_M -f Qwen2-7B-Instruct-Q5_K_M.Modelfile
8. 查看和运行Qwen2大模型
ollama list
ollama run Qwen2-7B-Instruct
更多推荐
所有评论(0)