欣淇
发布于 2026-05-15 / 0 阅读
0
0

🖥 Bytebot:11k Stars 的开源 AI 桌面代理,给大模型配台电脑,它替你干活

项目地址:bytebot-ai/bytebot | ⭐ 11k Stars | 🛠 TypeScript | 作者 bytebot-ai


老实说,市面上所谓的"AI 自动化"工具,大多数就是帮你点点网页、调调 API。但你有没有遇到过这种情况:需要登录三个不同网站下载报表、用桌面应用打开文件、处理带验证码的流程——传统 RPA 搞不定,普通 AI Agent 又没有"手"?

Bytebot 这玩意儿,直接给 AI 配了一台完整的 Linux 电脑。不是模拟浏览器,是真的 Ubuntu 桌面,AI 能看见屏幕、移动鼠标、打字、装软件、处理文件。11k Stars,Docker 一键部署。

一、它能干什么?

Bytebot 运行在一个完整的虚拟桌面环境里(Ubuntu 22.04 + XFCE)。你说"帮我下载上个月三家银行的流水并汇总",它会:

  • 打开浏览器,依次登录银行门户
  • 2. 通过密码管理器搞定 2FA 认证

    3. 下载文件到自己的文件系统

    4. 打开表格软件汇总数据

    不是玩具。它能用 VS Code、Firefox、邮件客户端——所有你日常用的桌面软件。

    二、2分钟部署

    没废话,给个 Railway 一键按钮或者 Docker Compose 直接上:

    git clone https://github.com/bytebot-ai/bytebot.git
    cd bytebot
    
    # 选一个 API Key 就行
    echo "ANTHROPIC_API_KEY=sk-ant-***" > docker/.env
    # 或者 OpenAI: echo "OPENAI_API_KEY=***" > docker/.env
    # 或者 Gemini: echo "GEMINI_API_KEY=***" > docker/.env
    
    docker-compose -f docker/docker-compose.yml up -d
    
    # 浏览器打开 http://localhost:9992
    

    搞定。打开界面就能看到虚拟桌面,直接给它派活。

    三、API 调用也行

    如果想嵌入到自己的工作流里,Bytebot 提供了 REST API:

    import requests
    
    # 创建任务
    response = requests.post('http://localhost:9991/tasks', json={
        'description': '下载最新销售报表并生成摘要'
    })
    
    # 上传文件一起处理
    files = {'files': open('contracts.pdf', 'rb')}
    response = requests.post('http://localhost:9991/tasks',
        data={'description': '审阅这些合同里的重要日期'},
        files=files
    )
    

    还可以直接控制桌面:

    # 截图
    curl -X POST http://localhost:9990/computer-use \
      -H "Content-Type: application/json" \
      -d '{"action": "screenshot"}'
    
    # 在指定坐标点击
    curl -X POST http://localhost:9990/computer-use \
      -H "Content-Type: application/json" \
      -d '{"action": "click_mouse", "coordinate": [500, 300]}'
    

    四、踩坑记录

  • Takeover Mode:万一 AI 操作错了,UI 上有手动接管按钮,可以直接抢过鼠标自己操作
  • 密码管理器支持:可以装 1Password、Bitwarden 进去,AI 自己登录网站
  • 持久化环境:装的软件、配的账号都在,不会每次重建
  • 支持的模型:Anthropic Claude、OpenAI GPT、Google Gemini 都行
  • 最骚的操作是——你把文件拖到任务里,Bytebot 自己在桌面上打开、阅读、处理,整个流程肉眼可见。

    五、总结

  • 不是 API 套壳,是给 AI 配了台真电脑
  • Docker 一键部署,2 分钟跑起来
  • REST API 可编程控制
  • 支持多模型,自托管数据不出网
  • 11k Stars,Apache 2.0 开源
  • 适合场景:发票处理、多系统数据同步、跨平台报表生成、UI 自动化测试。别再用浏览器插件折腾了,给 AI 装台电脑吧。


    Bytebot is an open-source AI desktop agent that automates computer tasks through natural language commands. It runs inside a containerized Linux desktop environment (Ubuntu 22.04 + XFCE), with full computer use capabilities — seeing the screen, moving the mouse, typing, installing software, and processing files. Deploy in 2 minutes with Docker Compose or Railway deploy button.

    # Quick start (Docker)
    git clone https://github.com/bytebot-ai/bytebot.git
    cd bytebot
    echo "ANTHROPIC_API_KEY=sk-ant-***" > docker/.env
    docker-compose -f docker/docker-compose.yml up -d
    # Open http://localhost:9992
    

    # Programmatic task creation
    import requests
    resp = requests.post('http://localhost:9991/tasks', json={
        'description': 'Download sales report and create summary'
    })
    

    # Direct desktop control
    curl -X POST http://localhost:9990/computer-use \
      -H "Content-Type: application/json" \
      -d '{"action": "screenshot"}'
    

    Tags: #Bytebot #DesktopAgent #ComputerUse #AI-Agent #OpenSource #SelfHosted


    评论