🤖 Browser Use (94,488 Stars):让 AI 操控浏览器的 Python 库,一行代码搞定网页自动化 — GitHub | 🐍 Python | MIT
🌐 Browser Use (94,488 Stars): Make websites accessible for AI agents — automate browser tasks with Python — GitHub | 🐍 Python | MIT
老实说,折腾网页自动化这事儿,我之前一直用 Playwright 裸写脚本——每个页面都要手动定位元素、处理等待、处理弹窗,累得一批。Browser Use 这玩意儿直接刷新了我的认知:你只需要告诉它"去做什么",它自己操控浏览器搞定。
它是干啥的
Browser Use 是一个 Python 库,让 AI Agent(对接任意 LLM)能直接操控真实浏览器。不是截屏 OCR 那种伪自动化,是真·操控 DOM、点击按钮、填写表单、滚动页面。底层基于 Playwright,但把 AI 的决策能力嵌进去了。
最骚的操作是它自带了一个 ChatBrowserUse() 模型,专门针对浏览器操控优化,比通用模型快 3-5 倍。
上手:5 行代码
安装:
uv init && uv add browser-use && uv sync
然后写个脚本:
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
agent = Agent(
task="打开 GitHub trending 页,把今天前 5 个项目的名字和 star 数抄下来",
llm=ChatBrowserUse(), # 也可以用 Gemini / Claude
browser=Browser(),
)
await agent.run()
asyncio.run(main())
就这么简单。Agent 会自动打开浏览器、导航、提取信息,全程不用你写一个 CSS 选择器。
几种玩法
CLI 模式:不想写 Python?直接命令行交互:
browser-use open https://github.com/trending
browser-use state # 看所有可点击元素
browser-use click 3 # 点第 3 个
browser-use screenshot page.png
Claude Code 集成:装个 skill 就能让 Claude 帮你操控浏览器:
mkdir -p ~/.claude/skills/browser-use
curl -o ~/.claude/skills/browser-use/SKILL.md \
https://raw.githubusercontent.com/browser-use/browser-use/main/skills/browser-use/SKILL.md
自定义工具:还可以加自己的 tool:
from browser_use import Tools
tools = Tools()
@tools.action(description='查数据库')
def query_db(sql: str) -> str:
# 你的逻辑
return result
agent = Agent(task="...", llm=llm, browser=browser, tools=tools)
避坑
- 模型选择很重要:
ChatBrowserUse()是专门优化的,如果用通用模型(GPT-4o、Claude),效果差不少。benchmark 数据差 30%+。 - 验证码:开源版过不了复杂验证码,得用他们的 Cloud 服务(带 stealth 指纹和代理轮换)。
- 内存:每个 Chrome 实例吃 200-400MB,跑多了记得限流。
- 生产环境:不要裸跑多个 agent——Chrome 吃内存吃到你哭。用他们的 Cloud API 或者自己搞队列。
总结
- Browser Use = AI + Playwright,一句话让 agent 操控浏览器
- 支持 CLI、Python SDK、Claude Code skill 三种玩法
- 自带专用模型
ChatBrowserUse(),速度和精度吊打通用模型 - 开源免费(MIT),复杂场景需要 Cloud 版
- 适合做表单填写、数据采集、自动化测试
去 GitHub 上给它点个 star,这玩意儿是真能省时间。