你的电脑就是语音工作室:Voicebox 开源克隆语音、七引擎 TTS、MCP 让 AI 开口说话

一个免费、本地运行的 AI 语音工作室,让你从 3 秒音频克隆任意声音,用 7 个 TTS 引擎生成多语言语音,还能让 AI agent 用你克隆的声音跟你对话。
这个项目解决什么问题?
录了个视频想加配音,发现 ElevenLabs 的语音克隆一个月要 99 美元。写了个 AI 工具想让它能开口说话,发现 WisprFlow 只做语音输入不做语音输出。想给播客角色配不同的声音,发现每个引擎只能干一件事。
Voicebox 把语音 AI 的输入和输出拼在了一起——语音克隆、文本转语音、语音转文本、AI agent 语音输出,全部本地运行。7 个 TTS 引擎随意切换,23 种语言覆盖,还能给每个声音配一个"人格"——让同一个克隆声音用不同语气说话。
快速上手
安装
# macOS Apple Silicon
curl -L -o voicebox.dmg https://voicebox.sh/download/mac-arm
# macOS Intel
curl -L -o voicebox.dmg https://voicebox.sh/download/mac-intel
# Windows
curl -L -o voicebox.msi https://voicebox.sh/download/windows
# Docker
docker compose up
最简使用
- 打开 Voicebox 桌面应用
- 点击"添加声音"→ 拖入一段 3-10 秒的音频文件(WAV/MP3/FLAC)
- 选一个 TTS 引擎(推荐 Qwen3-TTS 或 Chatterbox Multilingual)
- 输入文本,点击生成——几秒后就能听到克隆的声音
全局听写
按 ⌘⌥(macOS)或 Ctrl+Alt(Windows),在任何应用中说话,语音自动转文字粘贴到当前输入框。Whisper 本地运行,无需联网。
让 AI agent 开口说话
Voicebox 内建 MCP 服务器。在 Claude Code、Cursor 或 Cline 中配置 MCP 连接后,agent 只需调用 voicebox.speak 就能用你克隆的声音说话。每个 agent 可以绑定不同的声音——Claude Code 用 Morgan 的声音,Cursor 用 Scarlett 的声音。
常见踩坑
- 首次使用需要下载模型(几百 MB 到几 GB),建议在有网络的环境下提前下载
- GPU 要求:macOS 需要 Apple Silicon(M1+),Windows/Linux 需要 NVIDIA GPU(CUDA)
- 部分引擎只支持英文(Chatterbox Multilingual 支持 23 种语言,是最广的)
- 生成过程中 GPU 会被独占,同一时间只能跑一个生成任务
技术原理
Voicebox 的核心架构是"一个前端 + 一个后端 + 一堆引擎"。
前端是 Tauri(Rust)写的桌面应用,负责 UI 和系统交互。Tauri 比 Electron 轻很多——二进制文件小、内存占用低。后端是 Python FastAPI 服务,管理所有的 TTS 引擎、语音克隆、音频处理和数据库。
7 个 TTS 引擎各有定位:
| 引擎 | 大小 | 语言 | 强项 |
|---|---|---|---|
| Qwen3-TTS | 0.6B / 1.7B | 10 | 指令式控制(“说慢点”“用气声说”) |
| Chatterbox Multilingual | — | 23 | 语言覆盖最广 |
| Chatterbox Turbo | 350M | 英文 | 带情感标签([笑][叹气]) |
| LuxTTS | 轻量 | 英文 | 48kHz 输出,CPU 也能跑 |
| Kokoro | 82M | 8 | 50 个预设声音,CPU 推理超快 |
| TADA (HumeAI) | 1B / 3B | 10 | 超长连贯音频(700 秒+) |
每个引擎是一个独立的 PyTorch 模型,Voicebox 用统一的调用接口封装它们。选择引擎并输入文本后,后端加载对应模型的 checkpoint,如果启用了语音克隆,将参考音频的特征注入模型,然后运行推理生成音频,最后应用后处理效果链。
语音克隆走的是零样本路径——不需要对参考声音做 fine-tune。一个 speaker encoder 把参考音频编码成 embedding 向量,注入到 TTS 模型的 cross-attention 层。参考音频最短 3 秒就能工作,10-30 秒效果更好。
长文本自动按句子边界分块(可配置 100-5000 字符),每块独立生成,然后 crossfade 拼接。支持 50000 字符上限,对文章和章节级别的 TTS 足够了。
每次生成都有来源追踪——原始输出、加效果后的版本、重新生成的 takes。每个版本记录 lineage,方便回溯。
架构分析
Voicebox 的模块划分:
voicebox/
├── app/ ← React 前端
├── backend/ ← Python FastAPI 后端
│ ├── routes/ ← API 路由
│ ├── services/ ← 核心逻辑
│ ├── mcp_server/ ← MCP 协议服务器
│ ├── database/ ← SQLite 数据库
│ └── config.py ← 配置管理
├── tauri/ ← Tauri 壳(Rust)
├── web/ ← Web 版前端
└── docs/ ← 文档
设计上几个值得说的点:
后端与前端完全分离。Python 后端是独立服务,不依赖 Tauri。你可以只启动后端(uvicorn backend.main:app --port 17493),用任何 HTTP 客户端调用 REST API。这为 Docker 部署和云部署留了路。
MCP 是一等公民,不是事后插件。mcp_server/ 和 REST API 并列,这让 Voicebox 天然适合 AI agent 集成。
每个 TTS 引擎是一个独立的服务类,注册到引擎注册表。新增引擎只需要实现统一接口,不需要改核心逻辑。
任务队列用串行队列管理生成任务,避免多个引擎同时抢占 GPU。支持 SSE 状态推送。
不太好的地方:
模型下载没有统一的包管理器。每个引擎在首次使用时各自下载,没有全局的模型仓库管理,用户可能会搞不清哪些模型已下载、哪些还没下。
引擎切换需要手动。没有自动选引擎的智能路由,用户需要知道每个引擎的特性才能选对——对小白用户门槛偏高。
优缺点 & 适用场景
优点:
- 完全本地运行,隐私天花板
- 7 个 TTS 引擎随意切换,从轻量 CPU 到高端 GPU 都有得选
- MCP 协议支持让 AI agent 集成零门槛
- 语音克隆 + 听写 + TTS 三合一,一个软件顶三个
缺点:
- GPU 要求不低,部分引擎需要 8GB+ VRAM
- 引擎选择对新手不友好——7 个引擎各有长短
- 0.5.0 还在早期,稳定性待验证
谁应该立刻试试:
- 内容创作者:播客、配音、视频旁白
- AI 应用开发者:需要让 agent 说话的产品
- 隐私敏感用户:不想把声音数据交给云端
谁应该再等等:
- 需要零配置开箱即用的用户
- 只做单一语言简单 TTS 的,浏览器在线 TTS 可能已经够用了
更多推荐



所有评论(0)