大模型学习：Qwen2.5-Coder 本地部署

前段时间，阿里开源了 Qwen2.5-Coder 系列模型，其中 32B 模型在十余项基准评测中均取得开源最佳成绩。无愧全球最强开源代码模型，在多项关键能力上甚至超越 GPT-4o。

猫头鹰数据分析

1171人浏览 · 2025-02-09 17:04:19

猫头鹰数据分析 · 2025-02-09 17:04:19 发布

前段时间，阿里开源了 Qwen2.5-Coder 系列模型，其中 32B 模型在十余项基准评测中均取得开源最佳成绩。

无愧全球最强开源代码模型，在多项关键能力上甚至超越 GPT-4o。

1.1 模型下载

关于下载多大的模型，可根据自己的显存进行选择，32B 模型至少确保 24G 显存。

我的显卡只有8G,所以下面我以 7b 模型来介绍怎么部署：

ollama pull qwen2.5-coder

1.2 模型修改

因为Ollama 的默认最大输出为 4096 个token，对于代码生成这种复杂任务而言，显然是不够的。

为此，我们需要修改模型参数，增加上下文 Token 数量

首先，我们在模型存放目录新建一个Modelfile 文件，然后填入：

FROM qwen2.5-coder
PARAMETER num_ctx 32768

然后，我们在powershell开始模型转换

ollama create -f Modelfile qwen2.5-coder-extra-ctx

转换成功后，我们查看模型列表

ollama list

也可以从模型缓存目录查看到

2.3 模型运行

测试模型运行，我们定义下调用函数，在python环境测试

def test_ollama():
    url = 'http://localhost:11434/api/chat'
    data = {
        "model": "qwen2.5-coder-extra-ctx",
        "messages": [
            { "role": "user", "content": 'ai coding'}
        ],
        "stream": False
    }
    response = requests.post(url, json=data)
    if response.status_code == 200:
        text = response.json()['message']['content']
        print(text)
    else:
        print(f'{response.status_code},失败')

如果没什么问题，就可以在 bolt.new 中调用了

今天的大模型介绍就到这里了，感谢能看到这里的朋友😉

本次的分享就到这里，【终极量化数据】致力于为大家分享技术干货😎

如果以上过程中出现了任何的纰漏错误，烦请大佬们指正😅

受益的朋友或对技术感兴趣的伙伴记得点赞关注支持一波🙏

也可以搜索关注我的微信公众号【终极量化数据】，留言交流🙏

MCP技术社区

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

【CodeBuddy + 自制MCP】给AI装上翅膀，快速绘制思维导图

MCP技术社区

如何将普通HTTP API接口改造为MCP服务器

创建.proto通过本文的四步改造法，你可获得：✅ 配置更新延迟降低90%✅ 网络带宽消耗减少70%✅ 服务端资源占用下降60%✅ 原生支持百万级节点连接升级到MCP不仅是协议转换，更是配置分发模式的架构进化。立即行动，让你的微服务配置管理进入实时推送时代！更多Istio进阶技巧请关注专栏【Service Mesh深度实践】