AI-China 评测与评估笔记：美团 EvoCUA 把电脑操作智能体的进展推成了一台合成经验引擎

这张真实的美团无人配送车照片适合本文，因为 EvoCUA 所在意的，正是一类更大的“行动系统”问题：关键变化落在模型如何改动真实界面、承接反馈并继续推进任务，而且超出了对话流利度这一个层面。[6]

截至 2026-04-29 UTC，更值得采用的 EvoCUA 读法，落点远远深过“又一个开源榜单分数抬高了”这层表面。真正更强的信号，在于美团把 GUI 智能体的进展当成一项合成经验引擎工程来做。[1][3] 公开数字当然仍然重要：美团称 EvoCUA-32B 在 OSWorld 上达到 56.7%，高于此前开源最优 OpenCUA-72B 的 45.0%，也超过论文中列出的闭源 UI-TARS-2 的 53.1%。[1][3] 更大的变化落在分数背后的训练闭环。EvoCUA 试图把静态轨迹模仿，换成一条能自动生成任务、在真实沙盒里验证任务、批量采集交互经验、再从成功与失败中继续回灌模型的链路。[1][3][5]

这一点放在 ai-china 语境里尤其重要，因为很多当下的模型叙事仍然停在发布日期、榜单名次和上下文长度这些标题层面。EvoCUA 的公开材料指向的是另一种瓶颈：原生 computer-use 智能体真正稀缺的，已经扩展到可信任务、高保真环境与富含错误信息的轨迹能否被工业化地产生出来。[1][2][3] 若这一判断成立，那么美团更大的贡献就落在一种把智能体能力当作操作型数据系统去建设的思路上，超出了单纯“看屏幕”策略的范围。

配图说明：题图采用 Wikimedia Commons 上的美团无人配送车真实照片。它适合本文，因为这里真正要讨论的是受约束环境中的行动。EvoCUA 的意义，在于模型能否在真实界面里前进、吸收反馈、修正路径，同时越过纯描述层面。[6]

分数之所以成立，是因为训练循环先变了

美团技术文章和 EvoCUA 论文，都先把矛头对准同一件事：传统模仿学习很难稳当地扩展到长链路 GUI 任务。[1][3] 静态专家轨迹能够展示“正确路径长什么样”，却很难教会模型处理这些时刻：光标点偏了一点之后会发生什么，窗口渲染轻微变化之后会发生什么，快捷键映射不稳定之后会发生什么，任务在中途脱离理想路径之后又该怎样回来。[1] 这也是论文为什么把核心障碍概括成 static data scaling，从而避开了“模型还不够聪明”这种粗线条写法。[3]

顺着这层理解，56.7% 的 OSWorld 结果，更像是训练环节确实发生了结构性变化的一次可见证据。[1][3] 论文称，这套 evolving 范式对单一模型之外也有效，它对 Qwen3-VL 与 OpenCUA 这样的不同基座，以及从 8B 到 72B 的不同规模，都能带来 computer-use 能力提升。[1][3] 这层意义比“赢了一张榜”更有分量，因为它暗示提升来自经验生成管线本身的迁移性，范围超出某个模型对某个基准的偶然适配。

OSWorld 在这里也因此仍然有分量。它评估的是真实桌面环境中的多轮交互任务，超出一次性截图理解。[2][5] 分数若要有意义，前提就是模型能够跨过规划、执行、纠错与终止判断这些连续环节。EvoCUA 想表达的，正是这类能力需要另一套数据与反馈供给链，而要越过传统静态模仿的外推路径。[1][3][5]

真正更重的一层，是带验证器的任务工厂

美团技术文章里最值得反复看的部分，是可验证数据合成引擎，分量高过榜单图。[1] 美团明确写到，团队放弃了常见的“LLM 生成任务，再由 reward model 做筛选”的路径，因为在 GUI 场景里，语义上说得通，和界面里做得到之间还有很长距离。[1] 一条任务指令在文字上看起来合理，放回真实窗口状态里仍会遇到无法落地的情况。EvoCUA 的处理方式更硬：自然语言指令与可运行验证代码一起生成，最后以沙盒里的真实运行结果作为任务是否有效的唯一标准。[1][3]

这一步带来的变化，比表面看起来更深。它把数据质量从“语言判断问题”推成了“执行判断问题”。按美团的描述，系统会先把 GUI 能力拆成可复用的原子技能，再构造结构化任务空间；接着批量生成参数化资源，例如表格、文档与报表，同时注入公开的非参数化材料，制造真实世界会出现的视觉噪音与布局差异；验证器代码若在沙盒里报错，就把错误日志送回去继续修正，直到它本身能够跑通。[1] 之后还有一致性过滤与三重去污，用来压低训练任务与评测数据之间的污染风险。[1]

把这套逻辑铺开之后，EvoCUA 最有战略价值的对象，反而未必是最后那份权重文件。更关键的部分，像是一座任务工厂：它可以不断产出真正能够落地、真正可验证的任务与验证器，避免产出语义漂亮、落地即碎的幻觉样本。[1][3]

沙盒基础设施本身，就是模型故事的一部分

另一个不该被跳过的部分，是基础设施。美团写到，EvoCUA 的进化式训练依赖一套可以承接 100,000+ 日活沙盒、每分钟百万级交互请求、并能在 1 分钟内拉起 10,000+ 沙盒实例的平台。[1] 这些仍是公司自述的工程数字，尚未构成独立审计结果，但它们把设计目标写得很清楚：EvoCUA 从一开始就已经是一套假定自己要吞吐巨量环境交互的系统，定位超出了少量演示任务组织出来的研究原型。[1]

更重要的是这些细节落点相当切中问题。美团描述了异步微服务架构、控制面与数据面的拆分，以及外层 Docker、内层 QEMU-KVM 的混合虚拟化结构，以同时满足编排弹性和强隔离需求。[1] 它还专门处理了键盘输入确定性、字体渲染一致性这些看上去很琐碎的问题。[1] 这些细节分量很重。computer-use 智能体最先失效的地方，常常就发生在这里：同一个快捷键在不同环境里行为漂移，或同一份文档因字体布局偏移而改变视觉结构，模型学到的就会滑向环境噪音，偏离稳定动作模式。

也正因如此，榜单分数必须和这层基础设施放在一起读。在 GUI 智能体里，环境保真度属于训练信号内部的构成条件，直接塑造模型能学到的动作与反馈。美团给出的实际判断是：系统工程本身就属于模型能力的一部分。截图理解模型、验证器与沙盒集群，共同组成一套耦合后的能力栈。[1][2][3]

EvoCUA 对失败的利用，比多数公开智能体稿件更具体

论文摘要写得很直接：EvoCUA 会识别能力边界，强化成功路径，同时把失败轨迹通过错误分析和自我修正转成监督信号。[3] 美团技术文章把这层意思继续落到操作层面。[1] 冷启动阶段先定义更完备的动作空间与思维模式；拒绝采样微调阶段再用动态 rollout 预算把更多算力投向模型能力边缘；强化学习阶段则改为尽量定位关键分岔点，避免把整条失败轨迹一把抹掉，在错误真正发生的位置下钻优化。[1]

这一点尤其关键。长链路 GUI 任务的信用分配本来就很差。第 5 步一个很小的选择失误，常常要到第 30 步才暴露成“找不到目标文件”这种明显错误。美团的思路，是把成功轨迹与失败轨迹对齐，找出状态一致但动作开始偏离的那一帧，再围绕那一帧去训练。[1] 这比把整条失败轨迹当作无用噪音，更贴近 computer-use 的真实结构。

后续公开更新也让这套判断显得更扎实一些。Hugging Face 模型卡写到，截至 2026-03-31，EvoCUA-32B 在 WindowsAgentArena 上达到 56.48%，高于基座 Qwen3-VL-32B-Thinking 的 42.9%，也高于引用中的 UI-TARS-2 的 50.6%。[4] 同一张模型卡还引用了一项 2026 年安全研究，称 EvoCUA-32B 在被测试的 CUA 中总体 unintended behavior 比例最低，为 35.0%。[4] 这些仍然属于模型卡所披露的跟进指标，尚未等同于这里额外复现实验后的结论，但它们仍然值得看，因为它们表明这条训练循环的效果，开始显露出跨操作系统与稳健性层面的迁移迹象。[4]

这件事为什么属于 AI-China

更准确的结论，重点不在“美团已经解决了 computer use”这类强判断。更有分量的结论在于，中国一支高度贴近业务和环境的 AI 团队，正在把竞争单位往另一个方向推。真正稀缺的，已经扩展到任务合成、验证器设计、环境吞吐与失败监督优化这一整套 machinery，能否把智能体经验高密度地累积起来。[1][2][3]

这会继续改变 ai-china 的观察方法。中国许多实验室与平台，已经能够拿到很强的开源或半开源基座模型。接下来更难复制的护城河，往往不会只出现在模型架构里，而会落在闭环行动数据，以及让这些数据持续生成的基础设施上。EvoCUA 值得看，正因为它把这一点讲得非常可见：computer-use 的进展，可以通过更好的 pretraining 推，也可以通过更好的“把界面变成可验证经验”的 machinery 来推。[1][3]

接下来有三类信号更值得盯。第一，看美团会不会继续给出更多证据，证明这套 evolving loop 能够跨操作系统、跨基座、跨任务继续迁移。[3][4] 第二，看开源仓库会不会逐步变成真正可复核的复现实面；当前仓库已经给出评测入口、部署说明与项目结构，这比很多只发结果不发路径的公告要扎实得多。[2] 第三，看其他 AI-China 团队会不会开始复制这种 verifier-first 范式。若复制者开始变多，EvoCUA 真正留下来的价值，未必只是一个模型名，而会是一套下一阶段中国行动型智能体的训练模板。[1][2][3]

cronfeed.work