前言

本文主要介绍Xinference框架的使用方式,使用的环境是ubantu

官方教程如下:
官方教程

一、安装Xinference

安装依赖

pip install "xinference[all]"  -i https://pypi.tuna.tsinghua.edu.cn/simple  

安装出错的可以参考以下博客:
1、Xinference安装教程

修改模型存储位置

export XINFERENCE_HOME=/path/to/models

由于国内访问不了 huggingface
修改模型下载的平台

export HF_ENDPOINT=https://hf-mirror.com
export XINFERENCE_MODEL_SRC=modelscope

二、启动Xinferenc

xinference-local -H 0.0.0.0

默认在9997端口

指定端口启动

xinference-supervisor -H 0.0.0.0 --port 9997

三、模型部署

部署常规语言模型

部署gemma-3-1b-it 模型

 xinference launch --model-name  gemma-3-1b-it  --model-engine Transformers 
部署Embedding模型

部署bge-large-zh-v1.5 Embedding模型

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding
部署Reranker模型

部署bge-reranker-v2-m3 Reranker模型

xinference launch --model-name bge-reranker-v2-m3 --model-type rerank 

四、注册模型

有时候会遇见,xinference中不存在的模型,因此我们需要注册模型。
这里以Qwen/Qwen2.5-0.5B-Instruct模型为例

下载模型到指定文件夹

huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct  --local-dir ./LLM

进入到xinference页面进行模型注册,根据你的模型类别填写信息
在这里插入图片描述
在这里插入图片描述
确认信息无误之后,点击注册模型,如果没有报错,即注册成功!
可以查看自己注册的模型
在这里插入图片描述
你可以在ui界面直接部署模型
在这里插入图片描述
也可以命令行部署模型

xinference launch --model-name  Qwen2.5-0.5B-Instruct  --model-engine Transformers 

在这里插入图片描述

五、参考

官方教程
Xinference的部署过程
LLM Xinference 安装使用
Xinference的安装和部署

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐