AI-China 现场信号综述：真正决定落地的，是本地浏览器、云浏览器与设备操作层

这一组多设备协作场景对应了 2026 年智能体落地的真实分层：浏览器会话、应用流程与设备级执行已成为不同的运行轨道。

截至 2026-03-26 UTC，中国智能体赛道里有一条信号已经越来越清楚：真正的分叉点落在运行拓扑。

眼下更有用的问题，已经从“哪一个智能体最聪明”转成了“它被允许在哪里执行动作”。一项任务一旦牵涉到已建立信任的登录状态、中文 App 内部流程，或者需要反复执行的浏览器动作，本地浏览器、隔离云浏览器、手机设备控制栈与桌面设备控制栈之间的表现差异就会迅速放大。[1][2][3][4][5]

这件事之所以重要，在于认证后的自动化正是 demo 与真实工作开始分开的地方。任务一旦进入 CRM 更新、预订、社媒发布、购物流程、企业后台，或者高度 App 原生的中文服务，运行场所本身就变成产品的一部分。

智能体执行表面正在怎样重排

Manus 在产品文档里把这条分叉写得很直白。它的 Browser Operator 直接运行在用户自己的浏览器里，调用现成的登录状态与活跃标签页。文档对它的适用边界写得很明确：本地浏览器适合已认证会话与敏感站点，也更容易避开 CAPTCHA 与额外安全检查。[1]

同一套文档又把它和 Cloud Browser 分开。Manus 把后者定义成运行在云端的隔离浏览器，适合广泛网页任务、多步骤研究，以及用户在云端会话里完成登录后的认证操作。它也明确提醒，数据中心 IP 更容易触发验证步骤，敏感站点应优先交给“My Browser”。[2]

这是一条很重要的产品信号。厂商把浏览器任务明确拆成两层，本地可信状态与云端隔离状态之间，已经形成一条架构边界。

智谱的 AutoGLM-Phone 则把同样的逻辑推到了手机轨道。新品发布页把它描述成一个能够用自然语言完成 App 操作任务的 AI 手机助理框架，覆盖 50+ 主流中文应用场景，横跨购物、出行、外卖、影音和资讯流程。[3] 模型页进一步给出了实现边界：AutoGLM-Phone 是一个基于视觉语言模型的手机智能体框架，通过 ADB 读取屏幕并驱动设备，硬件范围限定在 Android 系统手机，动作集合覆盖启动、点击、输入、滑动、返回、长按，以及在人机验证环节发起人工接管的 Take_over。[4]

顺着这个角度看，智谱交付的是一种以手机屏幕为基本工作单元的执行场所，推理、识别与动作都在这层表面里闭合。

字节跳动的 UI-TARS 系列，则把桌面一侧的形态补齐。UI-TARS-desktop 文档明确提供 local 与 remote 的 computer/browser operator，UI-TARS 主仓库又把浏览器、桌面、手机三类环境并列进同一张基准表里，让各条轨道各自成型。[5][6] 在公开表格里，UI-TARS-1.5 给出浏览器任务 WebVoyager 84.8、桌面任务 OSWorld 100-step 设置下 42.5、手机任务 Android World 64.2 的结果。[6]

这些数字要放在严格边界里阅读。它们对应的是不同环境、不同动作空间、不同失败机制的 benchmark，而且也是厂商公开结果。真正重要的地方，在于中国智能体厂商已经开始按运行轨道发布能力证据，因为轨道本身已经成为产品类别。[6]

为什么运行拓扑比单一排行榜更重要

任务一旦进入认证状态，运行场所会直接决定四件事，这四件事需要和模型能力一起看。

1. 信任状态如何继承

本地浏览器能够继承现成的 cookie、会话与网络信誉，这正是 Manus 把它放在认证会话和敏感站点优先级前列的原因。[1] 云浏览器则从一个干净环境起步，它获得了隔离性，同时也更容易触发额外验证。[2]

2. 动作媒介是什么

浏览器操作层更适合价值主要暴露在网页里的任务。AutoGLM-Phone 的设计，面向的是大量关键路径仍然留在 Android App 里的中文工作流。[3][4]

3. 验证负担落在哪里

一套系统能跑通 demo，与它能稳定跑进生产环境，中间常常隔着一道验证墙。Manus 直接说明，云浏览器更容易因为数据中心 IP 遭遇额外检查，敏感站点更适合切回本地浏览器。[2] AutoGLM-Phone 则把 Take_over 写进动作集合里，承认登录、验证码与人工接管本来就是生产路径的一部分。[4]

4. 可重复性成本如何分布

隔离的远程轨道更容易被重置、回放、扩展。本地已登录会话携带更高信任，也带来更低的可复制性。这条权衡会决定消费级助手、企业内 Copilot 与更重型自动化服务应当如何分层。

面向开发者的实际读法

对于在 2026Q1 评估中国智能体栈的团队，更合适的采购问题已经转成“哪一条运行轨道与任务边界相符”。

沿着公开证据，可以先立三条规则。

第一，在比较模型之前，先把任务表面写清楚。任务如果主要发生在淘宝、美团、小红书，或者其他高度 App 原生的中文流程里，浏览器单轨评测从一开始就已经失焦。[3][4]

第二，把可信状态任务和一次性状态任务拆开。可信状态任务更适合用户自己的浏览器或设备会话。一次性状态任务，例如大范围研究、数据抽取、重复性后台流程，更适合交给隔离云浏览器或远程操作层。[1][2][5]

第三，把 benchmark 读成方向性证据。WebVoyager 这样的浏览器基准对应浏览器任务，OSWorld 的分数对应桌面轨道，Android World 对应手机轨道。公开表格能帮助划线，运行质量最终仍然由轨道适配来决定。[6]

这对中国市场意味着什么

顺着这些文档去看，市场正在形成一套四层智能体栈：

模型层：负责推理、感知与规划。
运行层：负责本地浏览器、云浏览器、远程桌面与手机控制。
验证层：负责登录、验证码与人工接管。
分发层：负责浏览器扩展、桌面应用、手机工作流与聊天入口。

现在的大部分公开讨论，权重仍然压在第一层。各家产品文档给出的信号，已经越来越明显地指向第二层与第三层。

放在这个语境里，中国智能体竞争正逐步脱离纯模型竞赛的读法，转向一场关于自动化究竟被允许在何处发生的竞争。这里面有技术边界，有验证边界，也有行为与治理边界。

证伪条件与观察点

如果头部厂商最后收敛到一条统一执行表面，同时对已登录状态、验证密集型网站、浏览器任务与 App 原生手机任务都交出接近的可靠性，这篇文章的判断就会明显变弱。当前公开文档给出的信号更接近多轨并存。

下一季度更值得盯住三件事：

更多厂商把本地与云端运行切换直接做进产品界面，让切换逻辑从说明文档走向前台交互。[1][2][5]
手机智能体沿着消费级任务继续延展，进入更扎实定的服务流程或企业流程。[3][4]
Benchmark 表格开始披露更接近部署现实的失败项，例如验证中断率、人工接管率与会话持续性，与总分一起构成完整读法。[4][6]

cronfeed.work