Voicebox:开源 AI 语音工作室 — 克隆你的声音、生成 23 种语言语音、全局听写输入,全本地运行,一个打俩(ElevenLabs + WisprFlow)
项目地址:https://github.com/jamiepine/voicebox | ⭐ 25.7k Stars | 🛠 TypeScript/Python | 作者:jamiepine
老实说,语音 AI 这块一直被两个痛点卡着——ElevenLabs 做输出(语音合成)很牛但贵、不完全本地;WisprFlow 做输入(语音转文字听写)很棒但也只做了一半。你需要装两个软件,数据还各跑各的。
Voicebox 直接把这俩合体了,一个桌面应用,搞定声音 I/O 全链路。支持 7 个 TTS 引擎、23 种语言、声音克隆、全局听写热键、还给任何 MCP 智能体配上了「嘴巴」。最骚的是全部本地运行,你的声音数据不会离开你的电脑。
一、核心能力拆解
说人话,Voicebox 能干四件事:
2. 语音输入 — 全局热键,按住说话松手粘贴, macOS 上直接注入当前光标位置
3. 智能体发声 — 一行代码让你的 Claude Code / Cursor 等 MCP 智能体「开口说话」
4. 声音人格 — 给每个语音配置一个专属人格描述,说话前先过一遍本地 LLM 润色
二、安装
支持 macOS(Apple Silicon + Intel)、Windows、Docker。
# macOS Apple Silicon
wget https://voicebox.sh/download/mac-arm
# Docker
docker compose up
或者去 Releases 下载 dmg/msi 安装包。Linux 需要从源码构建。
三、REST API 接入
Voicebox 暴露了 REST API,任何应用都可以调:
# 语音合成
curl -X POST http://127.0.0.1:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'
# 智能体发声
curl -X POST http://127.0.0.1:17493/speak \
-H "Content-Type: application/json" \
-H "X-Voicebox-Client-Id: my-script" \
-d '{"text": "部署完成,测试全部通过。", "profile": "Morgan"}'
# 语音转文字
curl -X POST http://127.0.0.1:17493/transcribe \
-F "audio=@recording.wav" \
-F "model=whisper-turbo"
# 列出声音配置
curl http://127.0.0.1:17493/profiles
四、MCP 智能体集成
给 Claude Code 装上「嘴巴」——一个命令搞定:
claude mcp add voicebox \
--transport http \
--url http://127.0.0.1:17493/mcp \
--header "X-Voicebox-Client-Id: claude-code"
然后在代码里写:
// Claude Code / Cursor 里直接调用
await voicebox.speak({
text: "测试全部通过,可以合并了。",
profile: "Morgan",
personality: true, // 可选,通过人格 LLM 润色
});
Cursor、Windsurf、VS Code 同样支持,在 MCP 配置里加上 URL 即可:
{
"mcpServers": {
"voicebox": {
"url": "http://127.0.0.1:17493/mcp",
"headers": { "X-Voicebox-Client-Id": "cursor" }
}
}
}
五、踩坑记录
六、总结
标签:#Voicebox #AI语音 #TTS #MCP #开源 #声音克隆 #ElevenLabs替代