Xinference安装与部署大模型
本文主要介绍Xinference框架的使用方式,使用的环境是ubantu官方教程。
·
前言
本文主要介绍Xinference
框架的使用方式,使用的环境是ubantu
官方教程如下:
官方教程
一、安装Xinference
安装依赖
pip install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple
安装出错的可以参考以下博客:
1、Xinference安装教程
修改模型存储位置
export XINFERENCE_HOME=/path/to/models
由于国内访问不了 huggingface
修改模型下载的平台
export HF_ENDPOINT=https://hf-mirror.com
export XINFERENCE_MODEL_SRC=modelscope
二、启动Xinferenc
xinference-local -H 0.0.0.0
默认在9997
端口
指定端口启动
xinference-supervisor -H 0.0.0.0 --port 9997
三、模型部署
部署常规语言模型
部署gemma-3-1b-it
模型
xinference launch --model-name gemma-3-1b-it --model-engine Transformers
部署Embedding模型
部署bge-large-zh-v1.5
Embedding
模型
xinference launch --model-name bge-large-zh-v1.5 --model-type embedding
部署Reranker模型
部署bge-reranker-v2-m3
Reranker
模型
xinference launch --model-name bge-reranker-v2-m3 --model-type rerank
四、注册模型
有时候会遇见,xinference
中不存在的模型,因此我们需要注册模型。
这里以Qwen/Qwen2.5-0.5B-Instruct
模型为例
下载模型到指定文件夹
huggingface-cli download Qwen/Qwen2.5-0.5B-Instruct --local-dir ./LLM
进入到xinference
页面进行模型注册,根据你的模型类别填写信息
确认信息无误之后,点击注册模型,如果没有报错,即注册成功!
可以查看自己注册的模型
你可以在ui界面直接部署模型
也可以命令行部署模型
xinference launch --model-name Qwen2.5-0.5B-Instruct --model-engine Transformers
五、参考
更多推荐
所有评论(0)