欣淇
发布于 2026-05-15 / 0 阅读
0
0

🎙 Voicebox:25.7k Stars 的开源 AI 语音工作室,克隆你的声音 + 给 AI 智能体装上嘴巴

Voicebox:开源 AI 语音工作室 — 克隆你的声音、生成 23 种语言语音、全局听写输入,全本地运行,一个打俩(ElevenLabs + WisprFlow)

项目地址:https://github.com/jamiepine/voicebox | ⭐ 25.7k Stars | 🛠 TypeScript/Python | 作者:jamiepine


老实说,语音 AI 这块一直被两个痛点卡着——ElevenLabs 做输出(语音合成)很牛但贵、不完全本地;WisprFlow 做输入(语音转文字听写)很棒但也只做了一半。你需要装两个软件,数据还各跑各的。

Voicebox 直接把这俩合体了,一个桌面应用,搞定声音 I/O 全链路。支持 7 个 TTS 引擎、23 种语言、声音克隆、全局听写热键、还给任何 MCP 智能体配上了「嘴巴」。最骚的是全部本地运行,你的声音数据不会离开你的电脑。

一、核心能力拆解

说人话,Voicebox 能干四件事:

  • 语音合成 — 从几秒音频克隆任何人的声音,用 7 种引擎生成自然语音
  • 2. 语音输入 — 全局热键,按住说话松手粘贴, macOS 上直接注入当前光标位置

    3. 智能体发声 — 一行代码让你的 Claude Code / Cursor 等 MCP 智能体「开口说话」

    4. 声音人格 — 给每个语音配置一个专属人格描述,说话前先过一遍本地 LLM 润色

    二、安装

    支持 macOS(Apple Silicon + Intel)、Windows、Docker。

    # macOS Apple Silicon
    wget https://voicebox.sh/download/mac-arm
    
    # Docker
    docker compose up
    

    或者去 Releases 下载 dmg/msi 安装包。Linux 需要从源码构建。

    三、REST API 接入

    Voicebox 暴露了 REST API,任何应用都可以调:

    # 语音合成
    curl -X POST http://127.0.0.1:17493/generate \
      -H "Content-Type: application/json" \
      -d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'
    
    # 智能体发声
    curl -X POST http://127.0.0.1:17493/speak \
      -H "Content-Type: application/json" \
      -H "X-Voicebox-Client-Id: my-script" \
      -d '{"text": "部署完成,测试全部通过。", "profile": "Morgan"}'
    
    # 语音转文字
    curl -X POST http://127.0.0.1:17493/transcribe \
      -F "audio=@recording.wav" \
      -F "model=whisper-turbo"
    
    # 列出声音配置
    curl http://127.0.0.1:17493/profiles
    

    四、MCP 智能体集成

    给 Claude Code 装上「嘴巴」——一个命令搞定:

    claude mcp add voicebox \
      --transport http \
      --url http://127.0.0.1:17493/mcp \
      --header "X-Voicebox-Client-Id: claude-code"
    

    然后在代码里写:

    // Claude Code / Cursor 里直接调用
    await voicebox.speak({
      text: "测试全部通过,可以合并了。",
      profile: "Morgan",
      personality: true, // 可选,通过人格 LLM 润色
    });
    

    Cursor、Windsurf、VS Code 同样支持,在 MCP 配置里加上 URL 即可:

    {
      "mcpServers": {
        "voicebox": {
          "url": "http://127.0.0.1:17493/mcp",
          "headers": { "X-Voicebox-Client-Id": "cursor" }
        }
      }
    }
    

    五、踩坑记录

  • GPU 显存 — Qwen3-TTS 1.7B 模型大概占 3-4GB VRAM,同时跑多个引擎记得在设置里卸载不用的
  • 首次使用 macOS — 听写功能需要授予 Accessibility 和 Input Monitoring 权限,应用内有引导
  • Docker on Linux — 需要 NVIDIA Container Toolkit 或 ROCm 支持才能 GPU 加速
  • Windows 听写粘贴 — Windows 自动粘贴功能尚未完成(Roadmap 中),Linux 同样
  • 模型下载 — 首次启动会下载模型文件(~2-5GB),取决于选的引擎,网速慢的话需要等一会
  • 六、总结

  • 一个应用顶两个(ElevenLabs + WisprFlow),全本地运行,数据不离开电脑
  • 7 个 TTS 引擎可选,23 种语言,声音克隆 3 秒音频就够了
  • MCP 智能体集成是一大亮点——给任何 AI 智能体装上「嘴巴」
  • 技术栈:Tauri(Rust)+ React + FastAPI + Whisper + MLX/CUDA
  • 安装 1 分钟,配好 MCP 就能用,跑在本地不用担心隐私
  • 标签:#Voicebox #AI语音 #TTS #MCP #开源 #声音克隆 #ElevenLabs替代


    评论