欣淇
发布于 2026-05-16 / 4 阅读
0
0

🌐 Vercel Agent Browser:33k Stars 的 Rust 原生浏览器自动化 CLI,比 Puppeteer 快 10 倍

🌐 Vercel Agent Browser:33k Stars 的 Rust 原生浏览器自动化 CLI,比 Puppeteer 快 10 倍

一行命令装好,AI Agent 直接操控浏览器,无需 Playwright、无需 Node.js。


写过浏览器自动化脚本的都知道,Puppeteer 和 Playwright 是好用,但装起来一堆依赖,跑起来内存动不动几百 MB。AI Agent 想操控浏览器?得先装 Node.js,再装 Playwright,再搞定 Chrome 路径——Agent 还没开始干活就卡在环境上了。

Vercel 出的 agent-browser 就是来解这个痛的。33k Stars,纯 Rust 写的 CLI,安装一行搞定:

npm install -g agent-browser
agent-browser install

然后你的 AI Agent 就能直接操控浏览器了,启动只要几十毫秒。

基于 Accessibility Tree 的 Ref 交互

传统浏览器自动化靠 CSS 选择器,页面一变就跪。agent-browser 读浏览器的 Accessibility Tree(无障碍树),给每个可交互元素打引用编号:

# 打开页面
agent-browser open example.com

# 获取无障碍树(带 ref 编号)
agent-browser snapshot

# 输出:
# [@e1] Button: "登录"
# [@e2] Link: "注册"
# [@e3] Input: "搜索"

# 直接按 ref 操作
agent-browser click @e2
agent-browser fill @e3 "ai agent browser"
agent-browser screenshot page.png

好处很明显——不怕页面结构变化。Accessibility Tree 是标准化的,CSS 类名全变了 @e2 还是那个"注册"按钮。

专为 AI Agent 设计

普通开发者能用,但很多功能是冲着 AI Agent 场景去的:

# AI 对话模式——一句话操控浏览器
agent-browser chat "帮我登录 GitHub 然后 star 这个项目"

# 标注截图——AI 直接看到元素编号
agent-browser screenshot --annotate

# WebSocket 流式传输——Agent 实时看页面变化
agent-browser stream enable --port 9222

所有命令输出结构化 JSON,AI Agent 解析起来毫无压力。

实际开发中,给 Claude Code 或任何 Agent 配上它,就能自动操控网页了:

agent-browser open "https://github.com/trending"
agent-browser snapshot | grep "repo" | head -5
agent-browser click @e4
agent-browser get text @e1

不用写大坨 Puppeteer 脚本,不用管异步回调,跟敲终端命令一样自然。

跟 Browser Use 比怎么样?

老实说,定位不一样

  • Browser Use(93k Stars)是 Python 库,适合深度集成 Agent 工作流,功能丰富但依赖重
  • Agent Browser(33k Stars)是 Rust CLI,主打轻量 + 速度快,适合简单直接的浏览器操控

你的 Agent 需要复杂页面交互逻辑 → 用 Browser Use。就想让 Agent 能快速打开网页、截图、点几下按钮 → agent-browser 更香。启动速度差了一个数量级。

总结

  • 纯 Rust 原生 CLI,npm install -g 即装即用
  • 基于 Accessibility Tree ref 交互,不怕页面结构调整
  • AI Agent 原生支持:标注截图、结构化输出、WebSocket 流式传输
  • 33k Stars,Vercel Labs 维护,更新活跃
  • 启动速度 < 100ms,内存占用比 Puppeteer 低一个数量级

装一个试试,让 Agent 替你干浏览器搬砖的活。


评论