截至 2026-03-26 UTC,中国智能体赛道里有一条信号已经越来越清楚:真正的分叉点落在运行拓扑

眼下更有用的问题,已经从“哪一个智能体最聪明”转成了“它被允许在哪里执行动作”。一项任务一旦牵涉到已建立信任的登录状态、中文 App 内部流程,或者需要反复执行的浏览器动作,本地浏览器、隔离云浏览器、手机设备控制栈与桌面设备控制栈之间的表现差异就会迅速放大。[1][2][3][4][5]

这件事之所以重要,在于认证后的自动化正是 demo 与真实工作开始分开的地方。任务一旦进入 CRM 更新、预订、社媒发布、购物流程、企业后台,或者高度 App 原生的中文服务,运行场所本身就变成产品的一部分。

智能体执行表面正在怎样重排

Manus 在产品文档里把这条分叉写得很直白。它的 Browser Operator 直接运行在用户自己的浏览器里,调用现成的登录状态与活跃标签页。文档对它的适用边界写得很明确:本地浏览器适合已认证会话与敏感站点,也更容易避开 CAPTCHA 与额外安全检查。[1]

同一套文档又把它和 Cloud Browser 分开。Manus 把后者定义成运行在云端的隔离浏览器,适合广泛网页任务、多步骤研究,以及用户在云端会话里完成登录后的认证操作。它也明确提醒,数据中心 IP 更容易触发验证步骤,敏感站点应优先交给“My Browser”。[2]

这是一条很重要的产品信号。厂商把浏览器任务明确拆成两层,本地可信状态与云端隔离状态之间,已经形成一条架构边界。

智谱的 AutoGLM-Phone 则把同样的逻辑推到了手机轨道。新品发布页把它描述成一个能够用自然语言完成 App 操作任务的 AI 手机助理框架,覆盖 50+ 主流中文应用场景,横跨购物、出行、外卖、影音和资讯流程。[3] 模型页进一步给出了实现边界:AutoGLM-Phone 是一个基于视觉语言模型的手机智能体框架,通过 ADB 读取屏幕并驱动设备,硬件范围限定在 Android 系统手机,动作集合覆盖启动、点击、输入、滑动、返回、长按,以及在人机验证环节发起人工接管的 Take_over。[4]

顺着这个角度看,智谱交付的是一种以手机屏幕为基本工作单元的执行场所,推理、识别与动作都在这层表面里闭合。

字节跳动的 UI-TARS 系列,则把桌面一侧的形态补齐。UI-TARS-desktop 文档明确提供 localremote 的 computer/browser operator,UI-TARS 主仓库又把浏览器、桌面、手机三类环境并列进同一张基准表里,让各条轨道各自成型。[5][6] 在公开表格里,UI-TARS-1.5 给出浏览器任务 WebVoyager 84.8、桌面任务 OSWorld 100-step 设置下 42.5、手机任务 Android World 64.2 的结果。[6]

这些数字要放在严格边界里阅读。它们对应的是不同环境、不同动作空间、不同失败机制的 benchmark,而且也是厂商公开结果。真正重要的地方,在于中国智能体厂商已经开始按运行轨道发布能力证据,因为轨道本身已经成为产品类别。[6]

为什么运行拓扑比单一排行榜更重要

任务一旦进入认证状态,运行场所会直接决定四件事,这四件事需要和模型能力一起看。

1. 信任状态如何继承

本地浏览器能够继承现成的 cookie、会话与网络信誉,这正是 Manus 把它放在认证会话和敏感站点优先级前列的原因。[1] 云浏览器则从一个干净环境起步,它获得了隔离性,同时也更容易触发额外验证。[2]

2. 动作媒介是什么

浏览器操作层更适合价值主要暴露在网页里的任务。AutoGLM-Phone 的设计,面向的是大量关键路径仍然留在 Android App 里的中文工作流。[3][4]

3. 验证负担落在哪里

一套系统能跑通 demo,与它能稳定跑进生产环境,中间常常隔着一道验证墙。Manus 直接说明,云浏览器更容易因为数据中心 IP 遭遇额外检查,敏感站点更适合切回本地浏览器。[2] AutoGLM-Phone 则把 Take_over 写进动作集合里,承认登录、验证码与人工接管本来就是生产路径的一部分。[4]

4. 可重复性成本如何分布

隔离的远程轨道更容易被重置、回放、扩展。本地已登录会话携带更高信任,也带来更低的可复制性。这条权衡会决定消费级助手、企业内 Copilot 与更重型自动化服务应当如何分层。

面向开发者的实际读法

对于在 2026Q1 评估中国智能体栈的团队,更合适的采购问题已经转成“哪一条运行轨道与任务边界相符”。

沿着公开证据,可以先立三条规则。

第一,在比较模型之前,先把任务表面写清楚。任务如果主要发生在淘宝、美团、小红书,或者其他高度 App 原生的中文流程里,浏览器单轨评测从一开始就已经失焦。[3][4]

第二,把可信状态任务一次性状态任务拆开。可信状态任务更适合用户自己的浏览器或设备会话。一次性状态任务,例如大范围研究、数据抽取、重复性后台流程,更适合交给隔离云浏览器或远程操作层。[1][2][5]

第三,把 benchmark 读成方向性证据。WebVoyager 这样的浏览器基准对应浏览器任务,OSWorld 的分数对应桌面轨道,Android World 对应手机轨道。公开表格能帮助划线,运行质量最终仍然由轨道适配来决定。[6]

这对中国市场意味着什么

顺着这些文档去看,市场正在形成一套四层智能体栈:

  1. 模型层:负责推理、感知与规划。
  2. 运行层:负责本地浏览器、云浏览器、远程桌面与手机控制。
  3. 验证层:负责登录、验证码与人工接管。
  4. 分发层:负责浏览器扩展、桌面应用、手机工作流与聊天入口。

现在的大部分公开讨论,权重仍然压在第一层。各家产品文档给出的信号,已经越来越明显地指向第二层与第三层。

放在这个语境里,中国智能体竞争正逐步脱离纯模型竞赛的读法,转向一场关于自动化究竟被允许在何处发生的竞争。这里面有技术边界,有验证边界,也有行为与治理边界。

证伪条件与观察点

如果头部厂商最后收敛到一条统一执行表面,同时对已登录状态、验证密集型网站、浏览器任务与 App 原生手机任务都交出接近的可靠性,这篇文章的判断就会明显变弱。当前公开文档给出的信号更接近多轨并存。

下一季度更值得盯住三件事:

  1. 更多厂商把本地与云端运行切换直接做进产品界面,让切换逻辑从说明文档走向前台交互。[1][2][5]
  2. 手机智能体沿着消费级任务继续延展,进入更扎实定的服务流程或企业流程。[3][4]
  3. Benchmark 表格开始披露更接近部署现实的失败项,例如验证中断率、人工接管率与会话持续性,与总分一起构成完整读法。[4][6]

来源

  1. Manus Documentation,《Browser Operator》(本地浏览器轨道、现成会话状态、本地与云端对比)。
  2. Manus Documentation,《Cloud browser》(隔离云浏览器、认证动作、数据中心 IP 注意事项)。
  3. 智谱 AI 开放文档,《新品发布》(AutoGLM-Phone 发布时间线与 50+ 中文应用场景说明)。
  4. 智谱 AI 开放文档,《AutoGLM-Phone》(VLM + ADB 设备控制、Android 边界、动作集合与 Take_over 机制)。
  5. ByteDance,《UI-TARS-desktop Quick Start》(local 与 remote 的 computer/browser operator 形态)。
  6. ByteDance,《UI-TARS》仓库 README(WebVoyager、OSWorld 100-step 与 Android World 基准表)。