🚀 Agent TARS:字节跳动开源的多模态 AI Agent 工具栈,33k Stars,一行命令让电脑自己干活
项目地址:https://github.com/bytedance/UI-TARS-desktop | ⭐ 33.4k Stars | 🛠 TypeScript | 作者:ByteDance
老实说,这年头做 GUI Agent 的项目不少,但真正能让你开箱即用、一条命令装完就让 AI 帮你操作电脑的,不多。字节跳动的 Agent TARS 是我最近试下来最顺手的——它把多模态视觉能力、浏览器自动化、MCP 工具链全塞进了一个 CLI 工具里,33k Stars 不是刷的。
🔥 一句话概括
Agent TARS 是一个通用多模态 AI Agent 工具栈,核心能力就三个:
它有两个产品形态:CLI 版的 Agent TARS(适合开发者)和桌面版的 UI-TARS Desktop(适合普通用户)。
⚡ 一条命令开干
# 一行命令启动,不需要安装任何东西
npx @agent-tars/cli@latest
# 或者全局安装,需要 Node.js >= 22
npm install @agent-tars/cli@latest -g
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
你给了 API Key 之后,直接说人话:
帮我订 9 月 1 日从上海到纽约最便宜的航班,9 月 6 号回来
Agent TARS 会自动打开浏览器、搜索机票、填表。最骚的是它能看到你在看什么——截图 + 视觉识别,不是纯靠 DOM 猜。
🛠 核心功能拆解
🖱 Hybrid Browser Agent:浏览器控制有两种模式——GUI Agent 模式(像素级视觉识别按钮位置)和 DOM 模式(直接解析 HTML 结构)。它还会自动混用两种策略,该点就点,该读就读。
🔄 Event Stream 驱动:所有 Agent 的行为都通过 Event Stream 协议推送,你可以实时看到它在想什么、在干什么、下一步计划是啥。调试体验拉满。
🧰 MCP 工具箱:内核直接跑在 MCP 协议上,你想加什么工具就加什么。算个天气图表、查个股票,一行配置就搞定。
🔧 桌面版玩法
如果你不想碰 CLI,直接下桌面 App:
# Mac 用户一行搞定
brew install --cask ui-tars
装好后配个模型就开用。支持 Hugging Face 部署的 UI-TARS-1.5,也支持字节自家的 Doubao-1.5-UI-TARS:
VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: YOUR_API_KEY
VLM Model Name: doubao-1.5-ui-tars-250328
配好之后,你对着它说"帮我在 VS Code 里打开自动保存,延迟设成 500ms",它就真去点了设置界面。
💡 总结
npx @agent-tars/cli@latest 一条命令就能跑,不用装 Python 环境,不用配 Docker标签:#AI #Agent #GUI-Agent #Browser-Automation #MCP #OpenSource