从0开始学手机AI代理,Open-AutoGLM新手友好指南
从0开始学手机AI代理,Open-AutoGLM新手友好指南
你有没有想过,让手机自己“动起来”?不是靠预设的自动化脚本,而是用一句大白话:“帮我打开小红书,搜‘周末咖啡馆’,保存前三张图”,它就能看懂界面、点开App、输入关键词、滚动浏览、长按保存——全程无需你碰一下屏幕。
这不是科幻电影,而是智谱AI开源的 Open-AutoGLM 正在做的事。它不是一个普通App,而是一个真正能“看见”手机屏幕、“听懂”你说话、“动手”执行操作的手机端AI智能体(Phone Agent)。更关键的是:它不挑设备、不需越狱、不用写一行Android代码,只要你会用USB线或连WiFi,就能亲手把它跑起来。
这篇文章就是为你写的——零基础、无安卓开发经验、没碰过ADB也没关系。我会带你从装第一个工具开始,一步步连上真机、调通模型、发出第一条自然语言指令,并亲眼看到手机自动完成任务。过程中不讲抽象架构,不堆术语参数,只说“这一步为什么做”“哪里容易卡住”“我试过怎么绕过去”。
准备好了吗?我们这就出发。
1. 先搞清楚:Open-AutoGLM到底是什么?
1.1 它不是APP,也不是插件,而是一个“手机操作大脑”
很多人第一反应是:“这不就是个自动化工具吗?Tasker、MacroDroid不也能点来点去?”
区别非常关键:
- 传统自动化工具:靠预设规则(比如“当微信通知出现,点击通知栏”),逻辑固定,无法应对界面变化;
- Open-AutoGLM:像一个真人助手——它先“看”当前屏幕(截图→视觉理解),再“想”下一步该做什么(大模型推理规划),最后“做”(通过ADB发指令模拟点击/滑动/输入)。界面变了?它能重新识别;任务变复杂了?它能拆解多步。
你可以把它想象成:把一个会看、会想、会动手的AI实习生,装进了你的电脑里,让它远程帮你操作手机。
1.2 核心能力一句话说清
| 你能说什么 | 它能做什么 |
|---|---|
| “打开抖音,搜‘AI教程’,点进粉丝最多的那个账号,关注他” | 自动启动抖音 → 输入搜索词 → 解析搜索结果列表 → 找出粉丝数最高的条目 → 点击进入主页 → 点击“关注”按钮 |
| “在美团上订一杯瑞幸外送,送到公司前台” | 启动美团 → 切换到外卖Tab → 搜索“瑞幸” → 选门店 → 加购咖啡 → 填地址“公司前台” → 提交订单 |
| “把微信聊天记录里昨天发的‘会议纪要.docx’文件,转发给张三” | 进入微信 → 打开与张三的对话 → 调出搜索框 → 输入“会议纪要” → 定位文件 → 长按转发 → 选择张三 |
注意:它不直接访问你的微信数据,所有操作都在你眼皮底下进行——它只是“代替你手指点”,而不是“偷偷读取数据库”。
1.3 它为什么能做成这样?三个支点缺一不可
- 看得清:用视觉语言模型(VLM)理解截图——不只是OCR文字,还能识别按钮位置、图标含义、页面层级;
- 想得明:基于AutoGLM-Phone-9B模型做任务分解——把“搜美食”拆成“开App→点搜索框→输关键词→点搜索按钮”;
- 做得准:通过ADB(Android Debug Bridge)精准控制真机——每一步坐标、滑动轨迹、输入内容都由模型生成并下发。
这三者合在一起,才让“说人话→手机动”这件事真正落地。
2. 动手前必看:环境准备不踩坑
别急着敲命令。很多新手卡在第一步,不是代码问题,而是环境没理顺。下面这些,我按你实际操作顺序列出来,每一步都标了“为什么必须做”和“常见翻车点”。
2.1 你的电脑要装什么?
-
Python 3.10+(推荐3.10或3.11)
为什么:项目依赖部分库只兼容较新版本;
翻车点:用系统自带Python(macOS常带2.7)或Anaconda默认环境(可能版本太老),运行pip install时报错一堆incompatible。 -
ADB工具(Android Debug Bridge)
为什么:这是连接电脑和手机的“桥梁”,没有它,一切免谈;
翻车点:下载了ADB但没配环境变量,终端里敲adb devices提示command not found。
小技巧:Windows用户直接下载Platform-tools,解压后右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴解压路径。macOS用户在终端执行:
echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc && source ~/.zshrc
2.2 你的手机要开什么?
-
开发者模式 + USB调试(必须)
怎么开:设置 → 关于手机 → 连续点击“版本号”7次 → 返回设置 → 开发者选项 → 打开“USB调试”;
翻车点:开了USB调试但没点“始终允许”,第一次连电脑时弹窗没点“允许”,后续一直连不上。 -
ADB Keyboard(必须)
为什么:普通输入法无法被ADB接管,这个键盘专为自动化设计,支持ADB指令输入;
翻车点:下了APK但没在“设置→语言与输入法”里切换成它,导致模型发“输入文字”指令时,手机没反应。
ADB Keyboard下载地址(GitHub官方):
https://github.com/senzhk/ADBKeyBoard/releases
下载最新版ADBKeyboard.apk,用手机浏览器打开安装即可。
2.3 网络连接:USB or WiFi?选哪个?
| 方式 | 优点 | 缺点 | 推荐场景 |
|---|---|---|---|
| USB直连 | 稳定、延迟低、首次配置最简单 | 需要线缆、不能离电脑太远 | 新手首选!先用USB跑通再切WiFi |
| WiFi远程 | 无线自由、可隔墙操作、适合部署测试 | 首次需USB开启、WiFi不稳定易掉线、IP地址要手动查 | 熟悉流程后,用于长期值守或批量测试 |
查手机IP方法(连同一WiFi下):
设置 → WLAN → 点击当前网络 → 查看“IP地址”(通常是192.168.x.x)
3. 三分钟跑通:从克隆代码到手机自动点
现在,我们跳过所有理论,直接上手。以下命令在终端(Windows PowerShell / macOS Terminal)中逐行执行,复制粘贴即可。
3.1 下载代码 & 安装依赖
# 1. 克隆仓库(国内访问慢可加代理,或用镜像)
git clone https://github.com/zai-org/Open-AutoGLM
cd Open-AutoGLM
# 2. 创建虚拟环境(强烈推荐,避免污染主环境)
python -m venv venv
source venv/bin/activate # macOS/Linux
# venv\Scripts\activate # Windows
# 3. 安装依赖(注意:requirements.txt已适配新手,不含难编译包)
pip install -r requirements.txt
pip install -e .
成功标志:终端不报错,最后一行显示 Successfully installed ...
3.2 连接手机(USB方式,最稳)
确保手机已开USB调试,并用数据线连电脑。
# 检查是否识别到设备
adb devices
成功标志:输出类似
List of devices attached
ABC123456789 device
(一串字母数字+单词device,不是unauthorized或空)
如果显示unauthorized:手机弹窗点“允许”;
如果空白:重插USB线,或换接口/线缆。
3.3 启动第一个任务:让手机自己“说你好”
我们不用复杂指令,先跑一个最简单的验证任务:
python main.py \
--device-id ABC123456789 \
--base-url https://api-inference.modelscope.cn/v1 \
--model "ZhipuAI/AutoGLM-Phone-9B" \
"打开设置,找到关于手机,连续点击版本号7次"
替换
ABC123456789为你自己的设备ID(adb devices看到的那个)
模型服务用魔搭(ModelScope)免费API,无需申请密钥,开箱即用
你会看到:
- 终端打印日志:“正在截图…”“正在调用模型…”“执行点击(x,y)”
- 手机屏幕自动亮起 → 进入设置 → 滚动到“关于手机” → 连续点击“版本号”区域7次 → 弹出“您现在处于开发者模式”提示
这就是Open-AutoGLM在工作——它真的读懂了你的中文,也真的动手做了。
4. 深入一点:怎么让指令更准、效果更好?
跑通只是开始。你会发现,有些指令它执行得快,有些却卡住、点错位置、甚至反复循环。这不是模型不行,而是“怎么说话”有讲究。以下是我在实测中总结的3个实用技巧。
4.1 指令要具体,避免模糊词
不好:“帮我订个外卖”
→ 模型不知道用哪个App、订什么、送哪
好:“打开美团外卖,搜索‘喜茶’,选最近的门店,下单一杯多肉葡萄,送到北京市朝阳区建国路8号SOHO现代城A座前台”
原理:模型需要明确的App名、动作目标、关键文本。就像你指挥一个没见过世面的同事,越细越好。
4.2 复杂任务分步走,别一股脑全塞
不好:“打开小红书,搜‘健身计划’,找点赞超1万的笔记,点进去,保存图片,再分享到微信”
→ 步骤太多,中间任一环节失败就中断
更稳做法:
- 先跑:“打开小红书,搜索‘健身计划’”
- 等它完成并停在搜索结果页,再发第二条:“点第一个笔记,长按保存图片”
- 再发第三条:“打开微信,发图给张三”
原理:模型单次推理有步数限制(默认20步),且界面状态实时变化。分步执行,可控性高、易调试。
4.3 遇到验证码/登录页?它会主动“喊你”
Open-AutoGLM内置安全机制:当检测到登录框、支付密码框、短信验证码输入框等敏感界面时,它不会强行操作,而是暂停并输出提示:
[PAUSE] 检测到登录界面,请手动完成登录。完成后输入 'continue' 继续。
你只需在手机上输完密码、收完验证码,回到终端敲continue,它立刻接着干活。
这不是缺陷,而是设计——既保障安全,又不打断流程。
5. 进阶玩法:不只“点点点”,还能“记事本+小助手”
Open-AutoGLM不止于执行指令,它的底层能力可以组合出更聪明的用法。这里分享2个我日常在用的轻量级扩展。
5.1 把它变成“手机操作记录仪”
你想知道某个App的操作路径?比如“怎么在闲鱼发布二手iPhone”?不用自己录屏记步骤,让AI帮你干:
python main.py \
--device-id YOUR_DEVICE_ID \
--base-url https://api-inference.modelscope.cn/v1 \
--model "ZhipuAI/AutoGLM-Phone-9B" \
"在闲鱼App中,完整演示如何发布一台iPhone 13,包括拍照、填标题、选类目、写描述"
它会一边操作,一边在终端输出每一步的思考过程:
Step 1: 当前界面是闲鱼首页,需点击底部“+”按钮
Step 2: 截图识别到“发布闲置”按钮,坐标(540,2100)
Step 3: 执行点击...
Step 4: 进入发布页,识别到“拍照”图标,坐标(180,850)
...
这相当于自动生成了一份图文并茂的《App操作说明书》。
5.2 搭配本地脚本,实现“定时自动打卡”
公司钉钉每天要打卡?你可以写一个极简Python脚本,每天9点自动触发:
# auto_clock_in.py
import subprocess
import time
def run_command(cmd):
result = subprocess.run(cmd, shell=True, capture_output=True, text=True)
print(result.stdout)
if __name__ == "__main__":
# 等待到9:00
while True:
now = time.localtime()
if now.tm_hour == 9 and now.tm_min == 0:
break
time.sleep(30)
# 执行打卡指令
cmd = '''python main.py \
--device-id YOUR_DEVICE_ID \
--base-url https://api-inference.modelscope.cn/v1 \
--model "ZhipuAI/AutoGLM-Phone-9B" \
"打开钉钉,切换到工作台,点击考勤打卡,点击上班打卡"'''
run_command(cmd)
把它丢进后台运行,从此告别手抖忘打卡。
6. 常见问题速查:遇到报错别慌,先看这
| 现象 | 可能原因 | 一句话解决 |
|---|---|---|
adb devices 显示 unauthorized |
手机未授权电脑调试 | 拔插USB线,手机弹窗点“允许” |
运行main.py报错 ModuleNotFoundError: No module named 'phone_agent' |
没执行 pip install -e . 或虚拟环境没激活 |
重新执行 pip install -e .,确认which python指向venv内 |
| 模型返回乱码或空响应 | ModelScope API限流(免费版QPS低) | 换成本地部署vLLM,或加--max-retries 3重试 |
| 手机点了但没反应(尤其输入文字) | ADB Keyboard没设为默认输入法 | 设置→语言与输入法→选择“ADB Keyboard”为当前输入法 |
WiFi连接后adb connect成功,但adb shell无响应 |
手机防火墙拦截ADB | 关闭手机管家/安全中心的“ADB拦截”开关 |
终极排查法:在终端单独执行
adb shell input tap 500 1000(模拟点击屏幕中央),如果手机没反应,说明ADB层不通,先解决这个;如果点了有反应,再查模型或指令问题。
7. 总结:你已经掌握了手机AI代理的核心能力
回看这一路,你其实已经完成了三件关键事:
- 理解本质:知道了Open-AutoGLM不是魔法,而是“视觉理解+任务规划+ADB执行”的闭环;
- 打通链路:从电脑环境、手机设置、模型服务到指令下发,整条链路全部亲手跑通;
- 掌握方法:学会了怎么写有效指令、怎么分步调试、怎么应对敏感场景。
这比单纯复制粘贴一段代码重要得多——因为接下来,你可以用这个能力做任何事:
帮父母自动挂号、批量管理社交账号、测试App兼容性、甚至开发自己的“手机AI助理”产品原型。
技术从来不是目的,解放双手、减少重复劳动、把时间留给真正重要的事,才是Open-AutoGLM想带给你的东西。
现在,关掉这篇教程,拿起你的手机和电脑,再跑一遍“打开微信发消息”——这一次,你心里清楚每一步在发生什么。那种掌控感,就是最好的入门礼物。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐

所有评论(0)