把时间锚定在 2026-04-07 UTC,理解智谱 AutoGLM-Phone 的最好入口,并不在“又一个 AI 助手”这种宽泛说法里。更紧的判断落在另一层:智谱正在把智能手机本身做成一条执行通道,专门承接中文 App 原生任务。[1][2][3][4] 真正重要的单位,不再只是模型给出的一段答案,而是它能否把点击、滑动、输入、返回、等待与人工接管这些动作,接成一条可完成任务的设备链路。[2]

官方材料把这件事写得很直白。智谱的新品发布页写到,AutoGLM-Phone2025 年 12 月 11 日上线,定位是 AI 手机智能助理框架,能够用自然语言完成 App 操作任务,具备界面识别、意图规划与设备执行的端到端能力,并且已经适配 50+ 主流中文应用场景,覆盖购物、出行、外卖、影音与资讯等高频任务。[1] 模型页再把工程边界补齐:这是一套通过 ADB 驱动 Android 手机的视觉语言框架,并非把所有工作流都强行压到浏览器里的代理层。[2]

这一点在 AI-China 语境里尤其重要,因为很多高频中文流程依旧牢牢长在 App 里。无论是在 美团 下单、在 高德地图 收藏路线、在 飞书 发消息、在 携程 订票,还是在 12306 里走完铁路购票步骤,任务是否算完成,不取决于模型说得多漂亮,而取决于设备状态是否真的被正确改写。[2][3]

图片说明:题图采用 Wikimedia Commons 上一张真实的手机滑动照片。这里用设备现场而不用公司楼宇,是因为本文讨论的正是手机这一块表面本身。只有当意图、App 状态与手势动作压在同一块屏幕上,AutoGLM-Phone 这类产品的意义才会变得具体。[5]

它的产品边界,是手机,并非空白对话框

最关键的证据,落在动作模型里。

智谱模型页把 AutoGLM-Phone 定义为一套可以多模态理解屏幕内容、再通过 ADB 控制设备的框架。[2] 同一页还把动作语法直接列了出来:LaunchTapTypeSwipeBackHomeLong PressDouble TapWait,以及在登录或验证码环节请求人工介入的 Take_over。[2] 这份动作表比任何宣传语都更说明问题,因为它直接把产品真正面对的难题亮了出来。难点从来不只是语言理解,而是如何把语言指令接到 GUI 状态变化上。

也正因为如此,用“手机侧执行通道”来描述它,会比“AI 手机助手”更贴合任务实况。助手这个词仍然允许产品停留在对话层,停留在 App 上方;执行通道意味着模型要真正进入 App 内部,穿过页面层级、加载延迟、导航岔路和部分失败,完成那条中间过程。[2]

智谱在新品发布页里的措辞,与这套读法是对齐的。页面写到,这一框架能够在少人工点击、少复杂配置的条件下,直接通过自然语言完成 App 操作任务,并强调它支持启动应用、输入文字、滑动、点击、回退、长按等细粒度控制。[1] 这是一种操作产品语气,重心落在动作链路。

真正的用例,落在中文 App 工作流里

这一套公开材料里,真正有分量的是任务结构本身,不在单张榜单。

智谱的 AutoGLM 研究页把它写成公司更宽的一条手机智能体路线,并把它称作全球首个手机 Agent,这一表述需要按公司口径理解,而不应当被写成独立机构已经裁定的事实。[3] 更值得看的地方,在于页面摆出来的实机案例与开源案例:美团“再来一单”、快手找视频、微博超话打卡、喜马拉雅播放内容、bilibili 查找直播、贝壳找房源,以及在 美团 订餐、在 高德地图 收藏景点、再到 12306 完成车票预订这样的长链路任务。[3]

这些例子真正说明的,是产品希望解决的任务类型并非浏览器式的。它瞄准的是中文移动生态里那些高度依赖 App 状态、页面逻辑与服务端 UI 习惯的流程。若这一层成立,AutoGLM-Phone 解决的就是一类更中国式、更手机原生的执行问题,而并非把桌面代理故事翻译成中文而已。

模型页的推荐场景也在朝同一方向收束。外卖选购、商品购买、出行服务、资讯获取、租房找房,都属于消费级手机流程里高频复现的一组任务。[2] 手机智能体是否有价值,也正是在这些环节里被检验出来。

人工接管写出了产品边界

整套公开材料里,最值得反复看的一个细节,就是 Take_over

很多代理产品之所以显得虚浮,原因正在这里。登录墙、短信验证、身份确认、支付确认、验证码步骤明明存在,演示视频却常常把它们抹平,仿佛自动化一到现实边界前就自动消失。智谱没有这样处理。模型页直接把 Take_over 列成支持动作,并明确把它对应到登录与验证码等人工介入场景。[2] 这是一种更认真、更接近真实流程的产品写法。

手机侧执行天然带着信任边界。中文消费类 App 里,支付确认、账号安全、定位授权、实名校验,本来就是任务链路的一部分。一个手机代理若不能在这些节点上平稳停下,并把控制权还给用户,它就只能停留在演示层,而很难进入可用层。

放在这个层面上看,Take_over 本身就是这篇文章判断的一部分,并非附注。智谱真正试图完成的是:在可以自动完成的中段替用户节省时间,在涉及身份、支付与信任的节点把人工主权清楚地保留下来。[2]

为什么这更像一条用例通道,而并非宽泛市场口号

把范围收紧之后,这件事反而更清楚。智谱真正要建立的,是一条让 phone use 本身成为产品表面的路线。

公司时间线能把这一点接上。智谱官网“关于我们”页面写到,公司在 2024 年 10 月发布 AutoGLM,并把它描述为全球首个手机智能体。[4] 到 2025 年 12 月,研究页又把这条路线往云手机、云电脑、开源与多步骤设备使用案例继续外推。[3] 再到开放文档,ADB 控制、Android 范围、支持动作、任务场景与示例流程都被正式写进平台页面。[1][2]

把这几层材料并起来看,AutoGLM-Phone 就不太像一则单纯的榜单故事了。智谱更像是在试图占住一条移动端执行路线,尤其是在中文 App 生态仍然是“意图变成动作”的天然发生地时。

顺着这些来源向下推,可以得到一条更有解释力的推论:这条通道比通用聊天接口更难被替代。任务若从手机 App 开始,也在手机 App 里结束,真正有竞争力的产品会是能够读懂界面、穿过导航变化、在信任边界前稳定停下、并把足够长的一段流程真正跑通的系统。[1][2][3][4]

哪些变化会削弱这条判断

如果 AutoGLM-Phone 在展示层面显得很宽,在可重复执行质量上却始终偏浅,这篇文章的判断就要收紧。

若页面适配名单看上去很长,真正运行时却频繁被界面改版、广告插层或验证流程打断,执行通道的价值会被迅速削薄。[2][3] 若 Take_over 出现的频率高到自动化中段被挤得太短,产品也会更接近玩具而并非工具。[2] 若竞品把浏览器或桌面表面做得足够顺滑,用户对“手机原生执行”这一层的敏感度也会下降。

即便如此,当前公开记录仍然朝同一方向收束。智谱确实在认真押注一个判断:中文 App 工作流本身就是一种独立的智能体类别,而手机不只是答案展示屏,它本身就是执行表面。[1][2][3][4]

结论

AutoGLM-Phone 更重要的动作,不在于给智谱再加一枚助手品牌,而在于把中文 App 原生工作流压成一条手机侧执行通道。[1][2][3]

ADB 控制、清晰的动作语法、围绕 美团高德飞书携程12306 的具体案例,以及正式写进产品定义里的 Take_over,都在指向同一件事:困难点落在执行链路本身。手机要在正确的表面上完成足够长的一段流程,同时还要把信任边界原样保留。[2][3]

来源

  1. 智谱 AI 开放文档,《新品发布》(2025 年 12 月 11 日 AutoGLM-Phone 条目;自然语言 App 操作、界面识别/规划/执行一体化、50+ 中文应用场景与细粒度动作集)。
  2. 智谱 AI 开放文档,《AutoGLM-Phone》(官方模型页;Android 设备范围、基于 ADB 的控制方式、Launch/Tap/Type/Swipe/Back/Take_over 等动作,以及场景示例)。
  3. 智谱 AI,《AutoGLM:每台手机,都可以成为 AI 手机》(2025 年 12 月 7 日官方研究页;公司对手机智能体的定位、Device Use 基准口径、开源说明,以及中文 App 实机案例)。
  4. 智谱 AI,《关于我们》(官方公司时间线页面;2024 年 10 月里程碑写到智谱发布 AutoGLM,并将其表述为全球首个手机智能体)。
  5. Wikimedia Commons,《File:Scrolling on phone.jpg》(本文题图来源页)。