欣淇
发布于 2026-05-15 / 0 阅读
0
0

🎯 Page Agent:17.8k Stars,阿里开源的 JavaScript 页面 GUI Agent,一行代码给你的网页装上 AI

🎯 Page Agent:17.8k Stars,阿里开源的 JavaScript 页面 GUI Agent,一行代码给你的网页装上 AI > 项目地址:[alibaba/page-agent](https://github.com/alibaba/page-agent) | ⭐ 17,820 Stars | 🛠 TypeScript | 作者:Alibaba --- 老实说,之前折腾 AI 浏览器操控的时候,我踩的坑基本都集中在一个点上:**太重了**。要么是 Python 套个 headless browser 开 Docker,要么是装 Chrome 插件,要么是截图传给多模态模型,一通操作下来没 10 秒搞不定一个点击。 阿里开源的 **Page Agent** 换个了思路——直接是一段 JavaScript,扔到网页里就能让用户用自然语言操控界面。不需要浏览器插件,不需要 Python 环境,不需要 headless Chrome,就是一个 `npm install` 的事。 ## 为什么值得关注? Page Agent 的核心卖点其实就一句话:**它不是让 AI 去操控浏览器,而是让 AI 直接活在网页里。** - **🎯 纯 JS 注入**:一行 ` ``` 这行代码就会在你的页面上生成一个 AI Copilot,用户可以直接用自然语言操控页面元素。 ### NPM 安装(正式接入) ```bash npm install page-agent ``` 然后几行代码搞定: ```javascript import { PageAgent } from 'page-agent' const agent = new PageAgent({ model: 'qwen3.5-plus', // 换成你自己的模型 baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1', apiKey: 'YOUR_API_KEY', language: 'zh-CN', }) await agent.execute('点击登录按钮') ``` 完事。`execute()` 方法接收自然语言指令,Page Agent 自动解析 DOM、定位元素、执行操作。整个过程不需要后端参与。 ## 实际能干啥? ### SaaS AI Copilot 给你的产品加个 AI 助手,用户说"帮我填这个表单"就直接填好。不需要改造后端。 ```javascript // 用户一句话,自动填完 20 个字段的表单 await agent.execute('用测试账号 admin/test123 登录,然后创建一个新订单,客户名填 "张三"') ``` ### 无障碍访问 做无障碍改造一直是个头疼的事。Page Agent 让用户可以用语音或自然语言操控任何网页,对视障用户来说就是直接说"点那个蓝色按钮"。 ### 跨页面 Agent(Chrome 插件模式) 如果你需要跨标签页操作,可以装它的 Chrome 插件,配合 MCP Server 来从外部操控浏览器。 ## 跟同类工具的对比 不吹不黑,Page Agent 不是要替代 Playwright 这种测试框架。它的场景是**给已有网页增加 AI 交互能力**,而不是做自动化测试。 简单对比的话: - **运行环境**:Page Agent 在浏览器端(JS 注入),browser-use/Playwright 在 Node/Python - **安装复杂度**:Page Agent 一行 CDN 搞定,其他要 pip/npm install + 装浏览器 - **DOM 解析**:Page Agent 纯文本解析(轻量),browser-use 截图+多模态 - **适合场景**:Page Agent 是做网页 AI 增强,browser-use 做自动化测试/爬虫 ## 几个小坑 1. **Demo CDN 的 LLM 有限制**:demo 用的是阿里提供的免费测试 API,只适合体验,生产环境要换自己的 key 2. **多模态未发布**:README 里提了图片支持但还没放出来,目前只处理文本 DOM 3. **复杂页面可能吃性能**:页面 DOM 节点超过 5000 个时解析会有延迟,大页面注意性能 ## 总结 - Page Agent 是阿里 17.8k⭐ 的开源 JS 页面 AI Agent,主打轻量嵌入 - 不像 browser-use/Playwright 需要 headless 环境,它直接活在网页里 - 一行 CDN 或 `npm install` 就能开始用,给任何页面加 AI 操控能力 - 最适合的场景:SaaS Copilot、无障碍改造、后台系统语音操控 想做网页 AI Agent 又不想碰 Python 那一套的,这玩意儿值得试试。

评论