【大模型系列】llama.cpp本地运行大模型

上一篇链接:我们讲了ollama本地运行大模型，这里我们介绍另一种本地运行大模型的方法：llamacpp。

万物皆字节

528人浏览 · 2025-03-12 21:18:55

万物皆字节 · 2025-03-12 21:18:55 发布

上一篇链接: 【大模型系列】使用ollama本地运行千问2.5模型我们讲了ollama本地运行大模型，这里我们介绍另一种本地运行大模型的方法：llamacpp

软件下载

下载地址：https://github.com/ggml-org/llama.cpp/releases
下载cpu版本的llamacpp；建议下载3982版本的，新版本我试了在win上运行不了
在这里插入图片描述
下载后是一个压缩包，解压后配置Path

配置path

在这里插入图片描述
把解压后的路径加入到path中

校验

任意新开命令行，输入指令：

llama-cli -v

出现以下内容表示安装成功
在这里插入图片描述

启动

到模型所在目录，执行以下命令即可；下载模型可见我另一篇：链接: 【大模型系列】入门常识备忘，这里我们下载的gguf格式的模型

llama-server -m qwen2.5-7b-instruct-q5_0.gguf --port 8088 -c 2048

port 是服务的端口
c 是context的意思，即最大能处理多少个token

启动后就可以通过浏览器 http://localhost:8088 访问服务了

在这里插入图片描述
调试开始

over~~

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】