Xinference安装与部署大模型

本文主要介绍Xinference框架的使用方式，使用的环境是ubantu官方教程。

韭菜盖饭 · 2025-04-15 14:11:47 发布

本文主要介绍Xinference框架的使用方式，使用的环境是ubantu

官方教程如下：
官方教程

安装依赖

pip install "xinference[all]"  -i https://pypi.tuna.tsinghua.edu.cn/simple

安装出错的可以参考以下博客：
1、Xinference安装教程

修改模型存储位置

export XINFERENCE_HOME=/path/to/models

由于国内访问不了 huggingface
修改模型下载的平台

export HF_ENDPOINT=https://hf-mirror.com
export XINFERENCE_MODEL_SRC=modelscope

xinference-local -H 0.0.0.0

默认在9997端口

指定端口启动

xinference-supervisor -H 0.0.0.0 --port 9997

部署gemma-3-1b-it 模型

 xinference launch --model-name  gemma-3-1b-it  --model-engine Transformers

部署bge-large-zh-v1.5 Embedding模型

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

部署bge-reranker-v2-m3 Reranker模型

xinference launch --model-name bge-reranker-v2-m3 --model-type rerank

有时候会遇见，xinference中不存在的模型，因此我们需要注册模型。
这里以Qwen/Qwen2.5-0.5B-Instruct模型为例

下载模型到指定文件夹

huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct  --local-dir ./LLM

进入到xinference页面进行模型注册，根据你的模型类别填写信息
在这里插入图片描述

确认信息无误之后，点击注册模型，如果没有报错，即注册成功!
可以查看自己注册的模型

你可以在ui界面直接部署模型

也可以命令行部署模型

xinference launch --model-name  Qwen2.5-0.5B-Instruct  --model-engine Transformers

在这里插入图片描述

欢迎加入 MCP 技术社区！与志同道合者携手前行，一同解锁 MCP 技术的无限可能！

更多推荐

实操干货！MCP全解析，一步步教你借助第三方MCP Server开发Agent

Review-Gate MCP，让你的 cursor request 次数翻 5 倍

MCP初学者指南（1）

查看更多评论

已为社区贡献3条内容