🎯 Page Agent:17.8k Stars,阿里开源的 JavaScript 页面 GUI Agent,一行代码给你的网页装上 AI
🎯 Page Agent:17.8k Stars,阿里开源的 JavaScript 页面 GUI Agent,一行代码给你的网页装上 AI
> 项目地址:[alibaba/page-agent](https://github.com/alibaba/page-agent) | ⭐ 17,820 Stars | 🛠 TypeScript | 作者:Alibaba
---
老实说,之前折腾 AI 浏览器操控的时候,我踩的坑基本都集中在一个点上:**太重了**。要么是 Python 套个 headless browser 开 Docker,要么是装 Chrome 插件,要么是截图传给多模态模型,一通操作下来没 10 秒搞不定一个点击。
阿里开源的 **Page Agent** 换个了思路——直接是一段 JavaScript,扔到网页里就能让用户用自然语言操控界面。不需要浏览器插件,不需要 Python 环境,不需要 headless Chrome,就是一个 `npm install` 的事。
## 为什么值得关注?
Page Agent 的核心卖点其实就一句话:**它不是让 AI 去操控浏览器,而是让 AI 直接活在网页里。**
- **🎯 纯 JS 注入**:一行 `
```
这行代码就会在你的页面上生成一个 AI Copilot,用户可以直接用自然语言操控页面元素。
### NPM 安装(正式接入)
```bash
npm install page-agent
```
然后几行代码搞定:
```javascript
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus', // 换成你自己的模型
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
language: 'zh-CN',
})
await agent.execute('点击登录按钮')
```
完事。`execute()` 方法接收自然语言指令,Page Agent 自动解析 DOM、定位元素、执行操作。整个过程不需要后端参与。
## 实际能干啥?
### SaaS AI Copilot
给你的产品加个 AI 助手,用户说"帮我填这个表单"就直接填好。不需要改造后端。
```javascript
// 用户一句话,自动填完 20 个字段的表单
await agent.execute('用测试账号 admin/test123 登录,然后创建一个新订单,客户名填 "张三"')
```
### 无障碍访问
做无障碍改造一直是个头疼的事。Page Agent 让用户可以用语音或自然语言操控任何网页,对视障用户来说就是直接说"点那个蓝色按钮"。
### 跨页面 Agent(Chrome 插件模式)
如果你需要跨标签页操作,可以装它的 Chrome 插件,配合 MCP Server 来从外部操控浏览器。
## 跟同类工具的对比
不吹不黑,Page Agent 不是要替代 Playwright 这种测试框架。它的场景是**给已有网页增加 AI 交互能力**,而不是做自动化测试。
简单对比的话:
- **运行环境**:Page Agent 在浏览器端(JS 注入),browser-use/Playwright 在 Node/Python
- **安装复杂度**:Page Agent 一行 CDN 搞定,其他要 pip/npm install + 装浏览器
- **DOM 解析**:Page Agent 纯文本解析(轻量),browser-use 截图+多模态
- **适合场景**:Page Agent 是做网页 AI 增强,browser-use 做自动化测试/爬虫
## 几个小坑
1. **Demo CDN 的 LLM 有限制**:demo 用的是阿里提供的免费测试 API,只适合体验,生产环境要换自己的 key
2. **多模态未发布**:README 里提了图片支持但还没放出来,目前只处理文本 DOM
3. **复杂页面可能吃性能**:页面 DOM 节点超过 5000 个时解析会有延迟,大页面注意性能
## 总结
- Page Agent 是阿里 17.8k⭐ 的开源 JS 页面 AI Agent,主打轻量嵌入
- 不像 browser-use/Playwright 需要 headless 环境,它直接活在网页里
- 一行 CDN 或 `npm install` 就能开始用,给任何页面加 AI 操控能力
- 最适合的场景:SaaS Copilot、无障碍改造、后台系统语音操控
想做网页 AI Agent 又不想碰 Python 那一套的,这玩意儿值得试试。