🚀 Agent TARS：字节跳动开源的多模态 AI Agent 工具栈，33k Stars，一行命令让电脑自己干活

项目地址：https://github.com/bytedance/UI-TARS-desktop | ⭐ 33.4k Stars | 🛠 TypeScript | 作者：ByteDance

老实说，这年头做 GUI Agent 的项目不少，但真正能让你开箱即用、一条命令装完就让 AI 帮你操作电脑的，不多。字节跳动的 Agent TARS 是我最近试下来最顺手的——它把多模态视觉能力、浏览器自动化、MCP 工具链全塞进了一个 CLI 工具里，33k Stars 不是刷的。

🔥 一句话概括

Agent TARS 是一个通用多模态 AI Agent 工具栈，核心能力就三个：

GUI Agent：看清屏幕截图，识别按钮/输入框，直接帮你操作

Browser Agent：混合使用视觉定位和 DOM 解析，自动控制浏览器

MCP 集成：内核基于 MCP 协议，能挂载各种真实世界工具

它有两个产品形态：CLI 版的 Agent TARS（适合开发者）和桌面版的 UI-TARS Desktop（适合普通用户）。

⚡ 一条命令开干

# 一行命令启动，不需要安装任何东西
npx @agent-tars/cli@latest

# 或者全局安装，需要 Node.js >= 22
npm install @agent-tars/cli@latest -g
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key

你给了 API Key 之后，直接说人话：

帮我订 9 月 1 日从上海到纽约最便宜的航班，9 月 6 号回来

Agent TARS 会自动打开浏览器、搜索机票、填表。最骚的是它能看到你在看什么——截图 + 视觉识别，不是纯靠 DOM 猜。

🛠 核心功能拆解

🖱 Hybrid Browser Agent：浏览器控制有两种模式——GUI Agent 模式（像素级视觉识别按钮位置）和 DOM 模式（直接解析 HTML 结构）。它还会自动混用两种策略，该点就点，该读就读。

🔄 Event Stream 驱动：所有 Agent 的行为都通过 Event Stream 协议推送，你可以实时看到它在想什么、在干什么、下一步计划是啥。调试体验拉满。

🧰 MCP 工具箱：内核直接跑在 MCP 协议上，你想加什么工具就加什么。算个天气图表、查个股票，一行配置就搞定。

🔧 桌面版玩法

如果你不想碰 CLI，直接下桌面 App：

# Mac 用户一行搞定
brew install --cask ui-tars

装好后配个模型就开用。支持 Hugging Face 部署的 UI-TARS-1.5，也支持字节自家的 Doubao-1.5-UI-TARS：

VLM Provider: VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL: https://ark.cn-beijing.volces.com/api/v3
VLM API KEY: YOUR_API_KEY
VLM Model Name: doubao-1.5-ui-tars-250328

配好之后，你对着它说"帮我在 VS Code 里打开自动保存，延迟设成 500ms"，它就真去点了设置界面。

💡 总结

开箱即用度最高：npx @agent-tars/cli@latest 一条命令就能跑，不用装 Python 环境，不用配 Docker

视觉理解是真强：基于 UI-TARS-1.5 模型的像素级 GUI Agent，比纯 DOM 解析的 Browser Use 类项目更接近人类操作

MCP 协议原生支持：不是后加的功能，内核就建立在 MCP 之上

双形态覆盖：开发者用 CLI，普通用户用桌面 App，场景全

标签：#AI #Agent #GUI-Agent #Browser-Automation #MCP #OpenSource

菜单

分享

🚀 Agent TARS：字节跳动开源的多模态 AI Agent 工具栈，33k Stars，一行命令让电脑自己干活

🚀 Agent TARS：字节跳动开源的多模态 AI Agent 工具栈，33k Stars，一行命令让电脑自己干活

🔥 一句话概括

⚡ 一条命令开干

🛠 核心功能拆解

🔧 桌面版玩法

💡 总结

评论

🧠 Mem0：55k Stars 的开源 AI 记忆层，pip install 让你的 Agent 不再"转头就忘" / Mem0: 55k Stars Open-Source Memory Layer for AI Agents

🐺 OpenFang：17.5k Stars 的开源 Agent 操作系统，装了它你的 Agent 就自己干活了

🤖 AionUi：25k Stars 的开源 AI 协作桌面，一个 App 管理所有 Coding Agent / AionUi: Free Open-Source Multi-Agent Cowork Desktop

🍒 Cherry Studio：45k Stars 的跨平台 AI 桌面客户端，一个 App 装下所有大模型

⚡ Mastra：23.9k Stars 的 TypeScript AI Agent 框架，Gatsby 团队出品，一行命令搭好生产级 Agent

🎨 Taste Skill：17k Stars 的 Anti-Slop 前端框架，一句命令让 AI 不再生成丑界面

⚡ Agno：40k Stars 的一站式 Agent 平台 SDK，20 行代码搭出生产级 AI 应用

🔥 GenericAgent：11.4k Stars 的自我进化 Agent，3K 行代码长出专属技能树

🎯 Page Agent：17.8k Stars，阿里开源的 JavaScript 页面 GUI Agent，一行代码给你的网页装上 AI

🦌 DeerFlow：ByteDance's 67k Stars SuperAgent Harness，三行命令跑起一个 Agent 团队