Ollama安装部署及加载自定义量化Qwen大模型

Qwen/Qwen1.5-1.8B-Chat模型为例子ModelFile文件内容。

weixin_46316820

1308人浏览 · 2025-01-25 15:03:37

weixin_46316820 · 2025-01-25 15:03:37 发布

1.下载安装Ollama

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz
sudo tar -C /usr -xzf ollama-linux-amd64.tgz

2.ollama基本命令

# 启动 Ollama 服务
ollama serve

# 查看启动状况
ollama -v

# 运行模型
ollama run <模型名称>

# 删除本地已下载的模型
ollama rm <模型名称>

# 创建自定义模型
ollama create <自定义模型名称> --file <Modelfile路径>

# 停止Ollama服务
ollama stop

# 列出本地模型
ollama list

3.加载自定义模型

Qwen/Qwen1.5-1.8B-Chat 模型为例子

3.1 下载模型

参考上一文章

3.2 量化转成GGUF格式

GGUF介绍：上一文章

python convert_hf_to_gguf.py /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat --outtype q8_0 --verbose --outfile /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat-gguf_q8_0.gguf

如下

3.3 定义ModelFile文件

ModelFile文件内容

FROM /home/llm/ai/model/Qwen/Qwen1___5-1___8B-Chat-gguf_q8_0.gguf

3.4 创建模型

ollama create Qwen1___5-1___8B-Chat-gguf_q8_0 --file ./ModelFile

3.5 运行模型

ollama run Qwen1___5-1___8B-Chat-gguf_q8_0

结果

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】