欣淇
发布于 2026-05-10 / 1 阅读
0
0

Open-AutoGLM25k Stars Agent Android:

📱 Open-AutoGLM:25k Stars 的手机 Agent 框架,说句话就能操控你的 Android 手机

项目地址:https://github.com/zai-org/Open-AutoGLM | ⭐ 25.2k Stars | 🛠 Python | 作者:ZAI (智谱 AI)


老实说,现在市面上的 AI Agent 大多停留在"帮你写代码、回邮件"的层面,但手机这个你每天摸几百次的设备,反而没人管。智谱 AI 开源的 Open-AutoGLM 直接把这个事干了——你说句话,它帮你操作手机。

这玩意儿怎么工作的?

说白了就是三步走:看屏幕 → 想怎么点 → 下手干。Phone Agent 通过 ADB(安卓调试桥)连上你的手机,用视觉语言模型看懂当前屏幕内容,然后生成下一步操作。你喊一句"打开美团搜火锅",它自己解锁、找应用、搜关键词、下单,全程不用你动手指头。

部署就两步

安装依赖和连设备:

pip install -r requirements.txt
pip install -e .

# 连上你的 Android 手机(开 USB 调试)
adb devices
# 看到 device 就行

然后用第三方 API 是最省事的方案——不用自己部署那 9B 的模型:

# 用智谱 BigModel
python main.py \
  --base-url https://open.bigmodel.cn/api/paas/v4 \
  --model "autoglm-phone" \
  --apikey "你的key" \
  "打开美团搜索附近的火锅店"

最骚的操作:自部署也给你安排明白了

如果你不想走 API,自己跑模型,它也给了完整的 vLLM 启动参数:

python3 -m vllm.entrypoints.openai.api_server \
  --served-model-name autoglm-phone-9b \
  --allowed-local-media-path / \
  --mm-encoder-tp-mode data \
  --max-model-len 25480 \
  --limit-mm-per-prompt '{"image":10}' \
  --model zai-org/AutoGLM-Phone-9B \
  --port 8000

启动完用脚本检查一下是不是跑通了:

python scripts/check_deployment_cn.py \
  --base-url http://localhost:8000/v1 \
  --model autoglm-phone-9b

正常返回会在命令行里直接打出思考链,比如"当前在小红书,要比较京东和淘宝的价格,先启动京东"。如果思维链很短或者乱码,就是部署有问题。

踩过的坑

权限是最大障碍。 必须打开开发者模式和 USB 调试,部分手机还得重启才能生效。另外 Android 需要装 ADB Keyboard 输入法才能自动打字,鸿蒙设备倒是不用——直接用原生输入法。

别用仅充电的数据线。 这个我踩过,连了半天 adb devices 就是没设备,换根数据线秒好。

总结

  • 一句话操控手机,不用写任何自动化脚本
  • 支持 Android 和鸿蒙,iOS 也有单独的 WebDriverAgent 方案
  • 自带敏感操作确认机制,输密码、验证码场景会等你手动介入
  • 智谱 BigModel 和 ModelScope 都有现成 API,不用自己部署也能玩
  • 开源 Apache 2.0 许可,可以随意二改

  • 评论