欣淇
发布于 2026-05-12 / 1 阅读
0
0

🚀 Agent TARS:字节跳动开源的多模态 AI Agent 工具栈,33k Stars,一行命令让电脑自己干活

🚀 Agent TARS:字节跳动开源的多模态 AI Agent 工具栈,33k Stars,一行命令让电脑自己干活

项目地址:https://github.com/bytedance/UI-TARS-desktop | ⭐ 33.4k Stars | 🛠 TypeScript | 作者:ByteDance

老实说,这年头做 GUI Agent 的项目不少,但真正能让你开箱即用、一条命令装完就让 AI 帮你操作电脑的,不多。字节跳动的 Agent TARS 是我最近试下来最顺手的——它把多模态视觉能力、浏览器自动化、MCP 工具链全塞进了一个 CLI 工具里,33k Stars 不是刷的

🔥 一句话概括

Agent TARS 是一个通用多模态 AI Agent 工具栈,核心能力就三个:

  • GUI Agent:看清屏幕截图,识别按钮/输入框,直接帮你操作
  • Browser Agent:混合使用视觉定位和 DOM 解析,自动控制浏览器
  • MCP 集成:内核基于 MCP 协议,能挂载各种真实世界工具
  • 它有两个产品形态:CLI 版的 Agent TARS(适合开发者)和桌面版的 UI-TARS Desktop(适合普通用户)。

    ⚡ 一条命令开干

    # 一行命令启动,不需要安装任何东西
    npx @agent-tars/cli@latest
    
    # 或者全局安装,需要 Node.js >= 22
    npm install @agent-tars/cli@latest -g
    agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
    

    你给了 API Key 之后,直接说人话:

    帮我订 9 月 1 日从上海到纽约最便宜的航班,9 月 6 号回来
    

    Agent TARS 会自动打开浏览器、搜索机票、填表。最骚的是它能看到你在看什么——截图 + 视觉识别,不是纯靠 DOM 猜。

    🛠 核心功能拆解

    🖱 Hybrid Browser Agent:浏览器控制有两种模式——GUI Agent 模式(像素级视觉识别按钮位置)和 DOM 模式(直接解析 HTML 结构)。它还会自动混用两种策略,该点就点,该读就读。

    🔄 Event Stream 驱动:所有 Agent 的行为都通过 Event Stream 协议推送,你可以实时看到它在想什么、在干什么、下一步计划是啥。调试体验拉满。

    🧰 MCP 工具箱:内核直接跑在 MCP 协议上,你想加什么工具就加什么。算个天气图表、查个股票,一行配置就搞定。

    🔧 桌面版玩法

    如果你不想碰 CLI,直接下桌面 App:

    # Mac 用户一行搞定
    brew install --cask ui-tars
    

    装好后配个模型就开用。支持 Hugging Face 部署的 UI-TARS-1.5,也支持字节自家的 Doubao-1.5-UI-TARS:

    VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
    VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
    VLM API KEY: YOUR_API_KEY
    VLM Model Name: doubao-1.5-ui-tars-250328
    

    配好之后,你对着它说"帮我在 VS Code 里打开自动保存,延迟设成 500ms",它就真去点了设置界面。

    💡 总结

  • 开箱即用度最高npx @agent-tars/cli@latest 一条命令就能跑,不用装 Python 环境,不用配 Docker
  • 视觉理解是真强:基于 UI-TARS-1.5 模型的像素级 GUI Agent,比纯 DOM 解析的 Browser Use 类项目更接近人类操作
  • MCP 协议原生支持:不是后加的功能,内核就建立在 MCP 之上
  • 双形态覆盖:开发者用 CLI,普通用户用桌面 App,场景全
  • 标签:#AI #Agent #GUI-Agent #Browser-Automation #MCP #OpenSource


    评论