截至 2026-05-31 UTC,理解 AgentCPM 的有效方式,已经超出又一个小模型以少量参数完成高难任务的说法。更清晰的 AI-China 信号在于,OpenBMB、THUNLP、中国人民大学和 ModelBest 正在尝试公开一条 agent 供应链:紧凑型 agent 模型、工具沙箱、强化训练、评测框架、本地部署路径,以及相邻的 GUI-agent 工作,被作为一个运营循环呈现,彼此分散演示的状态退到次要位置。[1][2][3][4][5]

这件事重要,是因为 agent 采用的下一个瓶颈比模型命名更朴素。一个能够浏览、检索、写作、使用手机界面或操作工具服务的 agent,必须经受长动作链、上下文膨胀、脆弱的工具输出、嘈杂的奖励信号和评测漂移。模型卡可以展示高分,但工程团队仍然需要知道轨迹来自哪个沙箱、哪些工具调用被允许、失败如何计分、模型能否本地运行,以及基础模型更换之后,同一循环能否再次执行。

AgentCPM 的公开材料把这种技术栈逻辑表达得格外明确。主仓库称该系列由 THUNLP、中国人民大学、ModelBest 和 OpenBMB 联合开发,并围绕真实世界 agent 问题展开,例如长程能力受限、自主性与泛化能力不足。[1] 随后,它把系统拆成若干可识别部件:用于深度搜索的 AgentCPM-Explore,用于深度研究报告生成的 AgentCPM-Report,用于统一工具沙箱管理和调度的 AgentDock,用于异步 agent 强化学习的 AgentRL,用于一键式工具学习评测的 AgentToLeaP,以及用于报告侧检索部署的 UltraRAG。[1]

把它作为一套技术栈来读,比通常的“中国实验室发布模型 X”故事更有意思。它说明模型只是链条中的一个产物。其他产物决定模型能否行动,能否从动作反馈中训练,能否在工具密集型任务上接受评测,以及能否被放入本地工作流,同时避免把私有数据泄露给云端系统。

AgentCPM-Explore 把稳定性变成小模型问题

2026 年 2 月 6 日 的 AgentCPM-Explore 论文,是紧凑型 agent 命题最直接的表述。它提出一个 4B-parameter agent 模型,并认为 edge-scale agents 受到约束,原因不只来自原始能力,也来自 SFT 过程中的灾难性遗忘、RL 过程中的嘈杂奖励信号,以及长上下文积累冗余信息时出现的推理退化。[2] 它给出的方案,是一个结合参数空间模型融合、奖励信号去噪和上下文信息精炼的训练框架。[2]

这些细节才是故事本身。一个小型 agent 不会因为参数更少就自然变得有用。只有当训练循环能够在加入工具行为、探索习惯和失败恢复能力的同时保留通用能力,它才会变得有用。论文的基准主张相当进取:AgentCPM-Explore 报告称,它在 4B 级模型中达到 state-of-the-art 表现,在若干基准上匹配或超过 8B 级模型,并在 pass@64 条件下于 GAIA text-based tasks 达到 97.09% 准确率。[2] 在匹配的评测框架下得到独立复现之前,这些应被视为供应方基准主张。更持久的一点在于诊断:对小型 agent 来说,推理稳定性和上下文纪律如今与参数规模同样重要。

这是一个有意义的 AI-China 信号,因为中国开放模型竞争已经让紧凑模型变得充裕。下一层差异化不再是“一个 4B 模型能否回答问题?”而是“一个 4B 模型能否在多轮探索中持续推进,同时不丢失任务、不污染上下文,也不在嘈杂反馈之后崩塌?”AgentCPM-Explore 把这个问题放在发布中心。

AgentDock 和 AgentToLeaP 把行动变成基础设施

主仓库的 QuickStart 说明在运营层面很有揭示性。它要求用户将 AgentDock 作为统一 MCP tool server 启动,配置模型 endpoint 细节,运行 QuickStart 任务,并检查 dialog.json 中的完整交互轨迹,包括工具调用和推理链。[1] 这条配置说明具有实质边界意义。它划出了 agent 演示与 agent 实验之间的边界。

如果工具服务缺少标准化,评测就难以比较。如果轨迹没有保存,失败分析就会变成轶事。如果工具调用不能重放,RL 和评测就会滑入无法核验的叙事。根据 AgentCPM 的项目布局可以推断,团队理解这一点:agent 模型、沙箱和轨迹,需要一起移动。[1][2]

这对开发团队重要,是因为大多数 agent 失败属于协调失败,也会外显为语言结果上的偏差。模型调用了错误工具,检索到过期证据,过早总结,超过有用上下文预算,或在隐藏前置条件已经失败后继续行动。沙箱与轨迹层给团队提供了定位这些失败的位置,也给训练系统提供了更清晰的目标:在已知环境中改进动作策略,同时让文字表达改进留在静态 prompt 之外的更宽训练循环里。

AgentCPM-Report 把本地深度研究变成部署主张

AgentCPM-Report 把同一种技术栈逻辑延展到长篇研究工作中。2026 年 2 月 6 日 的论文描述了一个 8B-parameter 深度研究 agent,以及一种 Writing As Reasoning Policy,即 WARP,它在 Evidence-Based Drafting 和 Reasoning-Driven Deepening 之间交替,使大纲能够在报告生成过程中演化,避免大纲在开始时冻结。[3] Hugging Face 卡片称,该模型基于 MiniCPM4.1-8B,支持本地部署,并配套一个 UltraRAG demo,使用 vLLM、Milvus 和一套 UI 工作流来上传文件、切分文本块、建立索引并生成报告。[6]

产品含义很清楚:这既是一个基准主张,也是一个隐私与控制主张。模型卡明确将 AgentCPM-Report 呈现为面向高隐私场景的本地深度研究模型,支持离线部署和私有知识库使用。[6] 它还记录了熟悉的服务路径,例如 Transformers、vLLM、SGLang、Docker Model Runner 和 OpenAI-compatible calls。[6]

这种组合很重要。只以托管黑箱形态运行的研究 agent 更容易试用,但围绕机密数据治理时更难处理。一个不能通过常见运行时提供服务的本地 agent,在理论上更安全,在实践中则会带来很高使用成本。AgentCPM-Report 试图占据中间地带:足够小,可以作为 8B 本地模型讨论;同时包裹了足够的检索和服务基础设施,使它能够成为工作流,而不只是 notebook。[3][6]

边界同样重要。深度研究的公开基准仍然年轻,依赖裁判方式,并且对知识库构成敏感。Hugging Face 页面列出了 DeepResearch Bench、DeepConsult 和 DeepResearch Gym 的评测表,并注明写作时知识库约含 2.7 million 篇 arXiv 论文,以及约 200,000 条内部网页摘要。[6] 这些细节应当让读者更谨慎。只有在检索语料、裁判方法、任务组合和运行时策略都可检查时,基准结果才有意义。

AgentCPM-GUI 在手机上展示同一模式

AgentCPM-GUI 最清楚地证明,这个团队并未只把 agent 理解为浏览器里的研究助理。该项目于 2025 年 5 月 13 日 开源,技术报告于 2025 年 6 月 3 日 发布。[5] 论文描述了一个用于移动场景的 8B-parameter GUI agent,训练过程包括 grounding-aware pre-training、基于中英文轨迹的 supervised fine-tuning,以及使用 GRPO 的 reinforcement fine-tuning。[4] GitHub README 称,它接收智能手机截图并执行用户指定任务;其重点包括跨 30+ 个热门应用的中文 App 操作、紧凑 JSON actions,以及平均 9.7 tokens 的动作长度。[5]

这是同一套技术栈问题在不同界面中的体现。手机 agent 必须把像素映射到控件,把意图转换为动作 schema,选择坐标,并在下一屏变化时恢复任务。AgentCPM-GUI 论文报告称,它在 CAGUI benchmark 上达到 96.9% Type-Match91.3% Exact-Match,但更有用的信号在于,团队发布了代码、模型 checkpoint 和评测数据。[4] 对 GUI agents 来说,可复现性重要,因为单一分数可以掩盖坐标约定、屏幕分辨率、允许动作、App 版本和语言组合。

放在 AI-China 语境里,手机角度具有战略意味。中国移动生态包含 App 界面、支付流程、地图、本地服务、短视频平台和超级应用模式,这些在 English-first GUI tasks 中覆盖不足。双语 Android 数据集和中文 App 基准不能保证部署就绪,但它们确实定义了一条全球基准套件经常遗漏的本地评测通道。[4][5]

What To Watch

AgentCPM 命题最强的版本,是紧凑型 agent 在整个循环足够开放时走向实用:模型、沙箱、工具轨迹、RL 方法、检索层、服务路径和评测数据。较弱的版本,则是这些部件各自令人印象深刻,却彼此脱节,每个基准都依赖不同的私有设置。

三项观察点值得关注。第一,AgentDock、AgentRL 和 AgentToLeaP 能否成熟为稳定的公共基础设施,而不只是仓库内部脚手架。[1] 第二,评测链路是否足够完整,使外部团队能够跨 GAIA-style search、deep-research writing 和 mobile GUI operation 复现主张。[2][3][4] 第三,加入隐私约束、内存限制、vector-store 设置和工具权限之后,本地部署是否仍然具有实践性。[6]

证伪条件很直接。如果 AgentCPM 报告的增益依赖不透明的奖励塑形、未发布的裁判习惯,或外部团队无法重建的任务环境,那么这套技术栈会弱于发布叙事所暗示的样子。更强的证明会显得平淡却有价值:版本化工具沙箱、已保存轨迹、可复现 eval scripts、清晰的模型运行时要求,以及公开的失败分类。

AgentCPM 的意义在于,它指向 AI-China 技术栈接下来会去的地方。模型发布速度已经不足以构成完整优势。竞争单位正在变成 agent loop:训练策略,安全暴露工具,运行长任务,保存轨迹,给失败计分,改进模型,并在数据提出要求时本地部署。AgentCPM 是中国开源生态中最清晰地尝试把这一循环显性化的项目之一。[1][2][3][4][5][6]

来源

  1. OpenBMB,AgentCPM GitHub 仓库(项目概览、2026 年 1 月 AgentCPM-Explore 和 AgentCPM-Report 发布说明、AgentDock / AgentRL / AgentToLeaP / UltraRAG 组件、QuickStart 工作流、轨迹输出与 Apache-2.0 license)。
  2. Chen 等,"AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents," arXiv:2602.06485(2026 年 2 月 6 日提交;4B agent model、训练瓶颈、框架组件、基准主张和 pass@64 结果)。
  3. Li 等,"AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research," arXiv:2602.06540(2026 年 2 月 6 日提交;WARP 方法、8B deep research agent、训练阶段和基准框架)。
  4. Zhang 等,"AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning," arXiv:2506.01391(2025 年 6 月 2 日提交;2025 年 6 月 17 日修订;8B mobile GUI agent、双语训练、GRPO、CAGUI benchmark 和发布说明)。
  5. OpenBMB,AgentCPM-GUI GitHub 仓库(2025 年 5 月和 6 月发布说明、中英文 App 操作、screenshot-to-action 工作流、紧凑 JSON action 设计、30+ App 覆盖和 vLLM examples)。
  6. OpenBMB,AgentCPM-Report Hugging Face 模型卡(模型分发、MiniCPM4.1-8B base、WARP 摘要、UltraRAG 部署路径、本地隐私叙事、runtime options 和评测表)。
  7. Wikimedia Commons,"File:View near west gate of Tsinghua University.JPG"(Soramimi 拍摄的 2015 年真实照片,用作本文图片)。