Voicebox:开源AI语音工作室,本地替代ElevenLabs+WisprFlow,34K+Stars让AI开口说话

🎙️ Voicebox:开源 AI 语音工作室

免费替代 ElevenLabs + WisprFlow 的全栈 AI 语音解决方案,34K+ Stars,MIT 许可

34K+
GitHub Stars
7种
TTS 引擎
23
支持语言
500+
开发者
关注者
MIT
开源许可

📌 项目简介

Voicebox 是一个开源的 AI 语音工作室,由独立开发者 jamiepine 打造,旨在提供完全本地运行的 AI 语音解决方案。它将”语音生成(替代 ElevenLabs)”和”语音输入(替代 WisprFlow)”二合一,所有模型和数据完全在本地运行,无需上传云端,是隐私优先的 AI 语音工具首选。

项目基于 Tauri (Rust) 桌面端 + React/TypeScript 前端 + FastAPI Python 后端架构,支持 macOS、Windows 和 Docker 部署,内置 7 种 TTS 引擎、Whisper STT、本地 Qwen3 LLM,并原生支持 MCP 协议,让 AI 智能体也能”开口说话”。

⚙️ 安装要求和过程

环境要求

  • macOS:Apple Silicon (M1+) 或 Intel Mac,推荐 16GB 内存
  • Windows:Windows 10+,支持 CUDA GPU 加速(NVIDIA)或 DirectML(任意 GPU)
  • Linux:从源码构建,支持 CUDA/ROCm GPU 加速
  • 通用:Python 3.11+,Rust(开发构建),Bun (JS 运行时)

快速安装(预编译包)

# macOS (Apple Silicon)
curl -L https://voicebox.sh/download/mac-arm -o Voicebox.dmg

# macOS (Intel)
curl -L https://voicebox.sh/download/mac-intel -o Voicebox.dmg

# Windows
# 下载 MSI:https://voicebox.sh/download/windows

# Docker 一键启动
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
docker compose up

从源码开发构建

# 克隆仓库
git clone https://github.com/jamiepine/voicebox.git
cd voicebox

# 安装 just 命令工具(任务运行器)
brew install just # macOS
# 或 cargo install just

# 一键安装依赖并启动开发服务器
just setup
just dev

# 构建生产版本
just build # CPU 版本
just build-local # Windows + CUDA 版本

🌟 核心功能

🎤 7 种 TTS 引擎,覆盖全场景

Voicebox 集成了 7 种开源 TTS 引擎,从超轻量的 Kokoro (82M) 到高质量的 HumeAI TADA (3B),满足不同场景需求:

引擎 语言数 模型大小 核心优势
Qwen3-TTS 10 0.6B/1.7B 高质量多语言克隆,支持发音指令
Chatterbox Multilingual 23 ~1GB 语言覆盖最广,支持阿拉伯语/芬兰语等
Chatterbox Turbo 英语 350M 超快速度,支持 [laugh]/[sigh] 表情标签
Kokoro 8 82M 极小模型,CPU 实时 10x+ 速度
LuxTTS 英语 ~1GB 48kHz 输出,CPU 150x 实时速度
HumeAI TADA 10 1B/3B 语音语言模型,支持 700s+ 连贯音频
Qwen CustomVoice 10 自然语言控制发音,无需参考音频

🗣️ 语音克隆 + 无限长度生成

支持从几秒音频进行零样本语音克隆,同时内置 Kokoro 和 Qwen CustomVoice 的 50+ 精选预设语音。独创”无限长度生成”机制——自动按句子拆分文本,分块生成后交叉淡入淡出拼接,最大支持 50,000 字符的文本输入,彻底打破 TTS 长度限制。

🎧 全局语音输入(Dictation)

支持全局热键语音输入,macOS 支持自动粘贴到当前文本框(按住说话/切换模式)。内置 Whisper STT,支持可选 LLM 优化去除口癖、停顿,让语音输入更流畅自然。相当于开源版的 WisprFlow!

🤖 AI 智能体语音输出(MCP 支持)

内置本地 MCP 服务器,支持 Claude Code、Cursor、Cline 等 AI 编程助手通过 voicebox.speak 工具调用,让 AI 智能体用克隆的语音”开口说话”。支持为不同智能体绑定不同语音,实现个性化语音输出。

# Claude Code 一键配置 MCP
claude mcp add voicebox –transport http –url http://127.0.0.1:17493/mcp –header “X-Voicebox-Client-Id: claude-code”

🎬 语音故事编辑器 + 音频后处理

内置多轨道时间线编辑器,支持对话、播客、叙事内容制作,支持拖拽、音频裁剪、同步播放。基于 Spotify pedalboard 库提供 8 种音频后处理效果(音调偏移、混响、延迟、合唱、压缩等),并内置”机器人”、”电台”、”回声室”、”低音”4 种预设效果链。

💡 典型使用场景

场景一:AI 编程助手语音通知

长时间运行的编程任务(如模型训练、测试套件)完成后,通过 Voicebox MCP 集成,让 Claude Code 或 Cursor 用你喜欢的语音播报结果:”测试全部通过,共 42 个用例,耗时 3 分 12 秒”。不用盯着屏幕,声音告诉你进度!

场景二:多语言内容创作

使用 Chatterbox Multilingual 引擎(支持 23 种语言),配合语音克隆功能,内容创作者可以用自己(或任何)的声音生成多语言版本的视频配音、播客内容。Qwen3-TTS 还支持输入发音指令(如”慢点说”、”小声说”),让生成语音更自然。

场景三:本地隐私优先的语音输入替代

替代 WisprFlow 等云端语音输入工具,所有语音识别和转录均在本地运行(Whisper STT),语音数据不上传任何云端服务器。对隐私敏感的用户、企业内网环境,或者需要离线使用的场景,Voicebox 是最佳选择。

💬 推荐理由

为什么推荐 Voicebox?

1. 隐私优先,本地全栈。模型、语音数据、录音内容完全本地存储,不依赖任何云服务。对于关注数据隐私的开发者来说,这一点至关重要。

2. 二合一解决方案。一个工具同时替代 ElevenLabs(语音生成)和 WisprFlow(语音输入),不需要订阅两个服务,省心省钱。

3. 引擎覆盖全面。7 种 TTS 引擎从 82M 到 3B 参数,从 CPU 到 GPU 加速,从英语到 23 种语言,几乎覆盖了所有使用场景。

4. MCP 原生支持。AI 智能体生态正在爆发,Voicebox 率先支持 MCP 协议,让 AI 智能体具备语音输出能力,这在开源项目中非常前瞻。

5. 活跃开发中。485 个开放 Issues 说明社区非常活跃,项目在快速迭代。MIT 许可允许自由修改和分发,适合二次开发。

个人使用感受:Voicebox 的 MCP 集成体验非常顺滑,配置一次后,Claude Code 就能直接调用语音输出。用它来做长时间编程任务的语音通知,比盯着终端看进度条优雅太多。唯一的小遗憾是 Linux 目前还没有预编译包,需要自己从源码构建。

📥 下载地址

项目信息:
⭐ GitHub Stars: 34,192
📜 开源许可: MIT License
💻 技术栈: Tauri (Rust) + React/TypeScript + FastAPI (Python)
🌐 官网: voicebox.sh
📦 Docker: docker compose up
最近更新: 2026 年 6 月

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注