截至 2026-05-28 UTC,理解 DeepPlanning 的有效方式,是把它放在 Agent 模型排行榜之外。更值得关注的 AI-China 信号在于,阿里巴巴 Qwen 团队正在把评测推向一个更硬的问题:当每一个局部选择都受到时间、资金、可用性和工具发现事实的牵引时,一个 Agent 能否让整份计划保持有效?[1][2]
这个问题听上去直观,进入测量之后才显出难度。许多 Agent 演示显得能干,是因为每一步单独看都合乎情理。模型搜索、摘要、选择商品、写出计划,转录记录看起来很忙。DeepPlanning 针对的正是这种差距:一段看似合理的转录,与一个有效最终答案之间存在距离。它的旅行任务要求多日行程,覆盖航班、火车、酒店、餐厅、景点、预算和分钟级可行性。它的购物任务要求 Agent 在预算和偏好约束下组建购物车,同时处理商品属性、库存和优惠券逻辑。[1][3] 这个基准的价值在于,它把规划当作约束系统来处理,不把流畅解释当作练习目标。
图片背景:封面使用的是 Wikimedia Commons 上阿里巴巴杭州淘宝城和西溪园区总部的真实照片。它是一张档案摄影图像,把视觉锚点放在真实机构场景中。视觉锚点具有机构属性:DeepPlanning 来自 Qwen/阿里巴巴生态,在这一生态中,模型发布、兼容 DashScope 的工具、Agent 框架和评测产物正在越来越多地被打包到一起。[4][5]
这个基准围绕整份计划的失败来设计
DeepPlanning 的核心动作,是让全局失效变得可见。Qwen 文档称,这个基准包含两个现实的长周期领域:Travel Planning 和 Shopping Planning。[1] 在旅行任务中,Agent 扮演个人旅行助理,必须生成结构化规划报告,其中包括逐项成本和逐分钟日程。在购物任务中,Agent 必须输出结构化 JSON 购物车,满足需求并优化折扣效用。[1]
数字形态很重要,因为它界定了评测边界。旅行部分列出 120 个中文任务 和 120 个英文任务,背后有 9 个专用 API,每个任务约 7,708 条记录。购物部分列出 120 个英文任务、15 个专用 API,以及每个任务 171 条记录。[1] 这些数字不只是规模说明。它们解释了为什么随手让 LLM 回答并不足够。一份旅行计划会因为景点关闭、火车到达过晚、酒店缺少指定设施,或总支出突破预算而失败。一份购物计划会因为商品满足一个属性却不满足另一个属性、优惠券只在隐藏条件下适用,或看起来更低的价格在叠加折扣计算后失去优势而失败。
论文直接刻画了这一缺口:许多 Agent 评测已经转向长周期任务,但仍然过度重视局部或步骤级推理,未能充分处理全局约束优化。[2] DeepPlanning 的回答,是把三种能力放在一起测试:主动信息获取、局部约束推理和全局约束优化。[1][2] 重点在于一起。一个模型可以擅长工具调用,却在规划上表现不佳,因为它收集到了正确事实,却没有把这些事实调和起来。它可以擅长局部约束,却在某个局部收益破坏全天日程或总预算时失败。
排行榜应当被理解为压力测试,而不是加冕
最新 DeepPlanning 文档称,v1.1 于 2026-03-03 更新,修正了一些购物标注,并向排行榜加入更多模型。[1] 文档还称,排行榜结果取 四次运行 的平均值。[1] 这个平均细节很重要:Agent 结果经常很脆,因为工具顺序、推理模式和中间选择都会改变最终计划。单次运行会让系统呈现出高于实际水平的稳定性。
结果本身也支持一种审慎读法。在 v1.1 表格中,列出的最高模型达到 58.9 平均准确率,而阿里巴巴的 Qwen-3.5-Plus without thinking 为 37.6,Qwen-3.5-Plus with thinking 为 35.9。[1] 这些数字不是一个简单的“Qwen 获胜”叙事。它们更有用。它们显示,即便是强 Agent 模型,仍有大量整份计划有效性问题尚未解决。当答案令人不适时,这个基准正在发挥作用。
旅行与购物之间的拆分同样重要。DeepPlanning 报告了不同的旅行分数,例如常识、个性化、组合与案例准确率,也报告了购物分数,例如匹配分数与案例准确率。[1][4] 这种拆分比单一的 Agent 智商数字更健康。一个模型可以很擅长抽取旅行偏好,却在优惠券算术上薄弱。另一个模型可以很好地推理购物车,却在多日行程中漂移。这个基准最好的用途,是暴露失败表面,而不是把它压平。
这正是 AI-China 分析所需要的证据边界。中国模型实验室如今围绕编码、浏览器使用、办公、旅行、购物和企业工作流自动化发布 Agent 主张。最重要的问题已经不再是模型能否调用工具。问题在于,当多次工具调用产生相互冲突的约束之后,模型能否保持目标连贯。DeepPlanning 给了这个问题一个可复现的形状。[1][2][4]
Qwen-Agent 把基准转化为开发者界面
DeepPlanning 的意义还在于,它位于 Qwen-Agent 生态内部,而不是作为孤立的学术产物存在。Qwen-Agent 仓库把自身描述为围绕 Qwen 模型构建的框架和应用,支持函数调用、MCP、代码解释器、RAG、浏览器式扩展和 GUI。[4] 同一仓库包含 DeepPlanning 基准目录,其中有可运行的旅行和购物流程、数据下载说明、模型配置、API key 处理、统一执行、分领域输出和聚合结果文件。[4]
这种位置改变了信号。阿里巴巴不只是发布一个说明 Agent 很难的基准。它把这个基准放在开发者实际会使用的 Agent 框架附近。README 示例配置指向 OpenAI 兼容的模型服务路径和兼容 DashScope 的 Qwen 用法,而更广泛的 Qwen-Agent 文档包含 GUI、RAG、代码解释器和 MCP 支持的可选安装。[4] 组合起来的信息是:在这里搭建 Agent,然后测试规划是否经得起检验。
基准目录的运行形态也很有说明力。它分离旅行和购物领域,同时支持统一编排器。它要求从 Hugging Face 下载数据库,抽取领域特定数据,设置模型配置,运行推理,转换计划,评估结果,然后聚合跨领域分数。[3][4] 这和要求聊天模型在网页表单里解一道提示题并不相同。它更接近生产式规划循环的评测 harness,在那里,最终输出必须通过机器检查。
这里有一个限定。DeepPlanning 不应被视为 Agent 评测的完整答案。旅行和购物有价值,是因为它们让约束变得具体,但它们仍是有边界的领域。企业 Agent 会加入权限、混乱状态、用户打断、审计要求、模糊目标和成本控制。编码 Agent 会加入仓库状态和测试反馈。研究 Agent 会加入来源可信度和综合风险。这个基准最强的读法,是把它看作可验证规划的模板,而不是所有 Agent 工作负载的通用替代指标。
这个基准改变了什么
DeepPlanning 的主要贡献是评测纪律。它提出,Agent 计划应当在计划真正破裂的位置被检查:隐藏的环境状态、局部约束、全局约束和最终产物。这个标准优于“转录看起来很有思考”。[1][2]
对模型团队来说,这意味着推理轨迹和工具调用还不够。评测 harness 必须检查工具使用之后,答案是否满足用户约束。对应用团队来说,这个含义更实际:在信任旅行、采购、规划或工作流 Agent 之前,先定义无效状态。预算超支、不可实现的时间线、不可用选项、属性不匹配、过期事实和格式错误输出,都应成为测试,而不是事后复盘。
对 AI-China 来说,更广的信号是,阿里巴巴正在把 Qwen 栈从模型发布节奏向评测基础设施上移。DeepPlanning 与 Qwen-Agent、Hugging Face 数据集和 arXiv 论文共同构成一个公开包。[1][2][3][4] 这个包不只是声称 Qwen 模型在进步。它还提出了 Agent 时代需要什么样的证明。
反证路径很直接。如果 DeepPlanning 只变成又一个被厂商选择性引用的排行榜,它的价值会衰减。如果其他开发者把它用作面向特定领域、可验证、多次运行 Agent 评测的范式,它就会比当前排名表更重要。持久的基准不是为胜者加冕的基准。它是让无效计划更难隐藏的基准。
来源
- Qwen Team, "DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints" documentation (benchmark domains, task counts, tool counts, v1.1 change log, leaderboard, and metrics).
- Zhang, Yinger, et al., "DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints," arXiv:2601.18137 (submitted January 26, 2026; problem framing and benchmark rationale).
- Qwen, "Qwen/DeepPlanning" Hugging Face dataset card (Apache 2.0 dataset package, language/modalities metadata, paper link, and dataset framing).
- QwenLM,
Qwen-AgentGitHub repository and DeepPlanning benchmark directory (agent framework features, optional MCP/RAG/code-interpreter installs, runnable benchmark workflow, model configuration, and aggregation files). - Wikimedia Commons, "File:TaobaoCity Alibaba Xixi Park.jpg" by Danielinblue (source page for the real photograph of Alibaba's Hangzhou headquarters campus used as the article image).