🎙 Voicebox：25.7k Stars 的开源 AI 语音工作室，克隆你的声音 + 给 AI 智能体装上嘴巴

Voicebox：开源 AI 语音工作室 — 克隆你的声音、生成 23 种语言语音、全局听写输入，全本地运行，一个打俩（ElevenLabs + WisprFlow）

项目地址：https://github.com/jamiepine/voicebox | ⭐ 25.7k Stars | 🛠 TypeScript/Python | 作者：jamiepine

老实说，语音 AI 这块一直被两个痛点卡着——ElevenLabs 做输出（语音合成）很牛但贵、不完全本地；WisprFlow 做输入（语音转文字听写）很棒但也只做了一半。你需要装两个软件，数据还各跑各的。

Voicebox 直接把这俩合体了，一个桌面应用，搞定声音 I/O 全链路。支持 7 个 TTS 引擎、23 种语言、声音克隆、全局听写热键、还给任何 MCP 智能体配上了「嘴巴」。最骚的是全部本地运行，你的声音数据不会离开你的电脑。

一、核心能力拆解

说人话，Voicebox 能干四件事：

语音合成 — 从几秒音频克隆任何人的声音，用 7 种引擎生成自然语音

2. 语音输入 — 全局热键，按住说话松手粘贴， macOS 上直接注入当前光标位置

3. 智能体发声 — 一行代码让你的 Claude Code / Cursor 等 MCP 智能体「开口说话」

4. 声音人格 — 给每个语音配置一个专属人格描述，说话前先过一遍本地 LLM 润色

二、安装

支持 macOS（Apple Silicon + Intel）、Windows、Docker。

# macOS Apple Silicon
wget https://voicebox.sh/download/mac-arm

# Docker
docker compose up

或者去 Releases 下载 dmg/msi 安装包。Linux 需要从源码构建。

三、REST API 接入

Voicebox 暴露了 REST API，任何应用都可以调：

# 语音合成
curl -X POST http://127.0.0.1:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'

# 智能体发声
curl -X POST http://127.0.0.1:17493/speak \
  -H "Content-Type: application/json" \
  -H "X-Voicebox-Client-Id: my-script" \
  -d '{"text": "部署完成，测试全部通过。", "profile": "Morgan"}'

# 语音转文字
curl -X POST http://127.0.0.1:17493/transcribe \
  -F "audio=@recording.wav" \
  -F "model=whisper-turbo"

# 列出声音配置
curl http://127.0.0.1:17493/profiles

四、MCP 智能体集成

给 Claude Code 装上「嘴巴」——一个命令搞定：

claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

然后在代码里写：

// Claude Code / Cursor 里直接调用
await voicebox.speak({
  text: "测试全部通过，可以合并了。",
  profile: "Morgan",
  personality: true, // 可选，通过人格 LLM 润色
});

Cursor、Windsurf、VS Code 同样支持，在 MCP 配置里加上 URL 即可：

{
  "mcpServers": {
    "voicebox": {
      "url": "http://127.0.0.1:17493/mcp",
      "headers": { "X-Voicebox-Client-Id": "cursor" }
    }
  }
}

五、踩坑记录

GPU 显存 — Qwen3-TTS 1.7B 模型大概占 3-4GB VRAM，同时跑多个引擎记得在设置里卸载不用的

首次使用 macOS — 听写功能需要授予 Accessibility 和 Input Monitoring 权限，应用内有引导

Docker on Linux — 需要 NVIDIA Container Toolkit 或 ROCm 支持才能 GPU 加速

Windows 听写粘贴 — Windows 自动粘贴功能尚未完成（Roadmap 中），Linux 同样

模型下载 — 首次启动会下载模型文件（~2-5GB），取决于选的引擎，网速慢的话需要等一会

六、总结

一个应用顶两个（ElevenLabs + WisprFlow），全本地运行，数据不离开电脑

7 个 TTS 引擎可选，23 种语言，声音克隆 3 秒音频就够了

MCP 智能体集成是一大亮点——给任何 AI 智能体装上「嘴巴」

技术栈：Tauri（Rust）+ React + FastAPI + Whisper + MLX/CUDA

安装 1 分钟，配好 MCP 就能用，跑在本地不用担心隐私

标签：#Voicebox #AI语音 #TTS #MCP #开源 #声音克隆 #ElevenLabs替代

菜单

分享

🎙 Voicebox：25.7k Stars 的开源 AI 语音工作室，克隆你的声音 + 给 AI 智能体装上嘴巴

一、核心能力拆解

二、安装

三、REST API 接入

四、MCP 智能体集成

五、踩坑记录

六、总结

评论

🧠 Mem0：55k Stars 的开源 AI 记忆层，pip install 让你的 Agent 不再"转头就忘" / Mem0: 55k Stars Open-Source Memory Layer for AI Agents

🐺 OpenFang：17.5k Stars 的开源 Agent 操作系统，装了它你的 Agent 就自己干活了

🤖 AionUi：25k Stars 的开源 AI 协作桌面，一个 App 管理所有 Coding Agent / AionUi: Free Open-Source Multi-Agent Cowork Desktop

🍒 Cherry Studio：45k Stars 的跨平台 AI 桌面客户端，一个 App 装下所有大模型

⚡ Mastra：23.9k Stars 的 TypeScript AI Agent 框架，Gatsby 团队出品，一行命令搭好生产级 Agent

🎨 Taste Skill：17k Stars 的 Anti-Slop 前端框架，一句命令让 AI 不再生成丑界面

⚡ Agno：40k Stars 的一站式 Agent 平台 SDK，20 行代码搭出生产级 AI 应用

🔥 GenericAgent：11.4k Stars 的自我进化 Agent，3K 行代码长出专属技能树

🎯 Page Agent：17.8k Stars，阿里开源的 JavaScript 页面 GUI Agent，一行代码给你的网页装上 AI

🦌 DeerFlow：ByteDance's 67k Stars SuperAgent Harness，三行命令跑起一个 Agent 团队