你的电脑就是语音工作室：Voicebox 开源克隆语音、七引擎 TTS、MCP 让 AI 开口说话

击歌吟

108人浏览 · 2026-07-02 12:19:21

击歌吟 · 2026-07-02 12:19:21 发布

在这里插入图片描述

一个免费、本地运行的 AI 语音工作室，让你从 3 秒音频克隆任意声音，用 7 个 TTS 引擎生成多语言语音，还能让 AI agent 用你克隆的声音跟你对话。

这个项目解决什么问题？

录了个视频想加配音，发现 ElevenLabs 的语音克隆一个月要 99 美元。写了个 AI 工具想让它能开口说话，发现 WisprFlow 只做语音输入不做语音输出。想给播客角色配不同的声音，发现每个引擎只能干一件事。

Voicebox 把语音 AI 的输入和输出拼在了一起——语音克隆、文本转语音、语音转文本、AI agent 语音输出，全部本地运行。7 个 TTS 引擎随意切换，23 种语言覆盖，还能给每个声音配一个"人格"——让同一个克隆声音用不同语气说话。

快速上手

安装

# macOS Apple Silicon
curl -L -o voicebox.dmg https://voicebox.sh/download/mac-arm
# macOS Intel
curl -L -o voicebox.dmg https://voicebox.sh/download/mac-intel
# Windows
curl -L -o voicebox.msi https://voicebox.sh/download/windows
# Docker
docker compose up

最简使用

打开 Voicebox 桌面应用
点击"添加声音"→ 拖入一段 3-10 秒的音频文件（WAV/MP3/FLAC）
选一个 TTS 引擎（推荐 Qwen3-TTS 或 Chatterbox Multilingual）
输入文本，点击生成——几秒后就能听到克隆的声音

全局听写

按 ⌘⌥（macOS）或 Ctrl+Alt（Windows），在任何应用中说话，语音自动转文字粘贴到当前输入框。Whisper 本地运行，无需联网。

让 AI agent 开口说话

Voicebox 内建 MCP 服务器。在 Claude Code、Cursor 或 Cline 中配置 MCP 连接后，agent 只需调用 voicebox.speak 就能用你克隆的声音说话。每个 agent 可以绑定不同的声音——Claude Code 用 Morgan 的声音，Cursor 用 Scarlett 的声音。

常见踩坑

首次使用需要下载模型（几百 MB 到几 GB），建议在有网络的环境下提前下载
GPU 要求：macOS 需要 Apple Silicon（M1+），Windows/Linux 需要 NVIDIA GPU（CUDA）
部分引擎只支持英文（Chatterbox Multilingual 支持 23 种语言，是最广的）
生成过程中 GPU 会被独占，同一时间只能跑一个生成任务

技术原理

Voicebox 的核心架构是"一个前端 + 一个后端 + 一堆引擎"。

前端是 Tauri（Rust）写的桌面应用，负责 UI 和系统交互。Tauri 比 Electron 轻很多——二进制文件小、内存占用低。后端是 Python FastAPI 服务，管理所有的 TTS 引擎、语音克隆、音频处理和数据库。

7 个 TTS 引擎各有定位：

引擎	大小	语言	强项
Qwen3-TTS	0.6B / 1.7B	10	指令式控制（“说慢点”“用气声说”）
Chatterbox Multilingual	—	23	语言覆盖最广
Chatterbox Turbo	350M	英文	带情感标签（[笑][叹气]）
LuxTTS	轻量	英文	48kHz 输出，CPU 也能跑
Kokoro	82M	8	50 个预设声音，CPU 推理超快
TADA (HumeAI)	1B / 3B	10	超长连贯音频（700 秒+）

每个引擎是一个独立的 PyTorch 模型，Voicebox 用统一的调用接口封装它们。选择引擎并输入文本后，后端加载对应模型的 checkpoint，如果启用了语音克隆，将参考音频的特征注入模型，然后运行推理生成音频，最后应用后处理效果链。

语音克隆走的是零样本路径——不需要对参考声音做 fine-tune。一个 speaker encoder 把参考音频编码成 embedding 向量，注入到 TTS 模型的 cross-attention 层。参考音频最短 3 秒就能工作，10-30 秒效果更好。

长文本自动按句子边界分块（可配置 100-5000 字符），每块独立生成，然后 crossfade 拼接。支持 50000 字符上限，对文章和章节级别的 TTS 足够了。

每次生成都有来源追踪——原始输出、加效果后的版本、重新生成的 takes。每个版本记录 lineage，方便回溯。

架构分析

Voicebox 的模块划分：

voicebox/
├── app/          ← React 前端
├── backend/      ← Python FastAPI 后端
│   ├── routes/   ← API 路由
│   ├── services/ ← 核心逻辑
│   ├── mcp_server/ ← MCP 协议服务器
│   ├── database/ ← SQLite 数据库
│   └── config.py ← 配置管理
├── tauri/        ← Tauri 壳（Rust）
├── web/          ← Web 版前端
└── docs/         ← 文档

设计上几个值得说的点：

后端与前端完全分离。Python 后端是独立服务，不依赖 Tauri。你可以只启动后端（uvicorn backend.main:app --port 17493），用任何 HTTP 客户端调用 REST API。这为 Docker 部署和云部署留了路。

MCP 是一等公民，不是事后插件。mcp_server/ 和 REST API 并列，这让 Voicebox 天然适合 AI agent 集成。

每个 TTS 引擎是一个独立的服务类，注册到引擎注册表。新增引擎只需要实现统一接口，不需要改核心逻辑。

任务队列用串行队列管理生成任务，避免多个引擎同时抢占 GPU。支持 SSE 状态推送。

不太好的地方：

模型下载没有统一的包管理器。每个引擎在首次使用时各自下载，没有全局的模型仓库管理，用户可能会搞不清哪些模型已下载、哪些还没下。

引擎切换需要手动。没有自动选引擎的智能路由，用户需要知道每个引擎的特性才能选对——对小白用户门槛偏高。