DeepPlanning 把 Agent 评测变成约束问题，跳出观感检查

这张阿里巴巴杭州园区的真实照片适合放在这篇基准札记中，因为 DeepPlanning 是 Qwen/阿里巴巴体系中的评测产物，重要信号来自一家公司把 Agent 主张转化为可复现约束。[5]

截至 2026-05-28 UTC，理解 DeepPlanning 的有效方式，是把它放在 Agent 模型排行榜之外。更值得关注的 AI-China 信号在于，阿里巴巴 Qwen 团队正在把评测推向一个更硬的问题：当每一个局部选择都受到时间、资金、可用性和工具发现事实的牵引时，一个 Agent 能否让整份计划保持有效？[1][2]

这个问题听上去直观，进入测量之后才显出难度。许多 Agent 演示显得能干，是因为每一步单独看都合乎情理。模型搜索、摘要、选择商品、写出计划，转录记录看起来很忙。DeepPlanning 针对的正是这种差距：一段看似合理的转录，与一个有效最终答案之间存在距离。它的旅行任务要求多日行程，覆盖航班、火车、酒店、餐厅、景点、预算和分钟级可行性。它的购物任务要求 Agent 在预算和偏好约束下组建购物车，同时处理商品属性、库存和优惠券逻辑。[1][3] 这个基准的价值在于，它把规划当作约束系统来处理，不把流畅解释当作练习目标。

图片背景：封面使用的是 Wikimedia Commons 上阿里巴巴杭州淘宝城和西溪园区总部的真实照片。它是一张档案摄影图像，把视觉锚点放在真实机构场景中。视觉锚点具有机构属性：DeepPlanning 来自 Qwen/阿里巴巴生态，在这一生态中，模型发布、兼容 DashScope 的工具、Agent 框架和评测产物正在越来越多地被打包到一起。[4][5]

这个基准围绕整份计划的失败来设计

DeepPlanning 的核心动作，是让全局失效变得可见。Qwen 文档称，这个基准包含两个现实的长周期领域：Travel Planning 和 Shopping Planning。[1] 在旅行任务中，Agent 扮演个人旅行助理，必须生成结构化规划报告，其中包括逐项成本和逐分钟日程。在购物任务中，Agent 必须输出结构化 JSON 购物车，满足需求并优化折扣效用。[1]

数字形态很重要，因为它界定了评测边界。旅行部分列出 120 个中文任务 和 120 个英文任务，背后有 9 个专用 API，每个任务约 7,708 条记录。购物部分列出 120 个英文任务、15 个专用 API，以及每个任务 171 条记录。[1] 这些数字不只是规模说明。它们解释了为什么随手让 LLM 回答并不足够。一份旅行计划会因为景点关闭、火车到达过晚、酒店缺少指定设施，或总支出突破预算而失败。一份购物计划会因为商品满足一个属性却不满足另一个属性、优惠券只在隐藏条件下适用，或看起来更低的价格在叠加折扣计算后失去优势而失败。

论文直接刻画了这一缺口：许多 Agent 评测已经转向长周期任务，但仍然过度重视局部或步骤级推理，未能充分处理全局约束优化。[2] DeepPlanning 的回答，是把三种能力放在一起测试：主动信息获取、局部约束推理和全局约束优化。[1][2] 重点在于一起。一个模型可以擅长工具调用，却在规划上表现不佳，因为它收集到了正确事实，却没有把这些事实调和起来。它可以擅长局部约束，却在某个局部收益破坏全天日程或总预算时失败。

排行榜应当被理解为压力测试，而不是加冕

最新 DeepPlanning 文档称，v1.1 于 2026-03-03 更新，修正了一些购物标注，并向排行榜加入更多模型。[1] 文档还称，排行榜结果取 四次运行 的平均值。[1] 这个平均细节很重要：Agent 结果经常很脆，因为工具顺序、推理模式和中间选择都会改变最终计划。单次运行会让系统呈现出高于实际水平的稳定性。

结果本身也支持一种审慎读法。在 v1.1 表格中，列出的最高模型达到 58.9 平均准确率，而阿里巴巴的 Qwen-3.5-Plus without thinking 为 37.6，Qwen-3.5-Plus with thinking 为 35.9。[1] 这些数字不是一个简单的“Qwen 获胜”叙事。它们更有用。它们显示，即便是强 Agent 模型，仍有大量整份计划有效性问题尚未解决。当答案令人不适时，这个基准正在发挥作用。

旅行与购物之间的拆分同样重要。DeepPlanning 报告了不同的旅行分数，例如常识、个性化、组合与案例准确率，也报告了购物分数，例如匹配分数与案例准确率。[1][4] 这种拆分比单一的 Agent 智商数字更健康。一个模型可以很擅长抽取旅行偏好，却在优惠券算术上薄弱。另一个模型可以很好地推理购物车，却在多日行程中漂移。这个基准最好的用途，是暴露失败表面，而不是把它压平。

这正是 AI-China 分析所需要的证据边界。中国模型实验室如今围绕编码、浏览器使用、办公、旅行、购物和企业工作流自动化发布 Agent 主张。最重要的问题已经不再是模型能否调用工具。问题在于，当多次工具调用产生相互冲突的约束之后，模型能否保持目标连贯。DeepPlanning 给了这个问题一个可复现的形状。[1][2][4]

Qwen-Agent 把基准转化为开发者界面

DeepPlanning 的意义还在于，它位于 Qwen-Agent 生态内部，而不是作为孤立的学术产物存在。Qwen-Agent 仓库把自身描述为围绕 Qwen 模型构建的框架和应用，支持函数调用、MCP、代码解释器、RAG、浏览器式扩展和 GUI。[4] 同一仓库包含 DeepPlanning 基准目录，其中有可运行的旅行和购物流程、数据下载说明、模型配置、API key 处理、统一执行、分领域输出和聚合结果文件。[4]

这种位置改变了信号。阿里巴巴不只是发布一个说明 Agent 很难的基准。它把这个基准放在开发者实际会使用的 Agent 框架附近。README 示例配置指向 OpenAI 兼容的模型服务路径和兼容 DashScope 的 Qwen 用法，而更广泛的 Qwen-Agent 文档包含 GUI、RAG、代码解释器和 MCP 支持的可选安装。[4] 组合起来的信息是：在这里搭建 Agent，然后测试规划是否经得起检验。

基准目录的运行形态也很有说明力。它分离旅行和购物领域，同时支持统一编排器。它要求从 Hugging Face 下载数据库，抽取领域特定数据，设置模型配置，运行推理，转换计划，评估结果，然后聚合跨领域分数。[3][4] 这和要求聊天模型在网页表单里解一道提示题并不相同。它更接近生产式规划循环的评测 harness，在那里，最终输出必须通过机器检查。

这里有一个限定。DeepPlanning 不应被视为 Agent 评测的完整答案。旅行和购物有价值，是因为它们让约束变得具体，但它们仍是有边界的领域。企业 Agent 会加入权限、混乱状态、用户打断、审计要求、模糊目标和成本控制。编码 Agent 会加入仓库状态和测试反馈。研究 Agent 会加入来源可信度和综合风险。这个基准最强的读法，是把它看作可验证规划的模板，而不是所有 Agent 工作负载的通用替代指标。

这个基准改变了什么

DeepPlanning 的主要贡献是评测纪律。它提出，Agent 计划应当在计划真正破裂的位置被检查：隐藏的环境状态、局部约束、全局约束和最终产物。这个标准优于“转录看起来很有思考”。[1][2]

对模型团队来说，这意味着推理轨迹和工具调用还不够。评测 harness 必须检查工具使用之后，答案是否满足用户约束。对应用团队来说，这个含义更实际：在信任旅行、采购、规划或工作流 Agent 之前，先定义无效状态。预算超支、不可实现的时间线、不可用选项、属性不匹配、过期事实和格式错误输出，都应成为测试，而不是事后复盘。

对 AI-China 来说，更广的信号是，阿里巴巴正在把 Qwen 栈从模型发布节奏向评测基础设施上移。DeepPlanning 与 Qwen-Agent、Hugging Face 数据集和 arXiv 论文共同构成一个公开包。[1][2][3][4] 这个包不只是声称 Qwen 模型在进步。它还提出了 Agent 时代需要什么样的证明。

反证路径很直接。如果 DeepPlanning 只变成又一个被厂商选择性引用的排行榜，它的价值会衰减。如果其他开发者把它用作面向特定领域、可验证、多次运行 Agent 评测的范式，它就会比当前排名表更重要。持久的基准不是为胜者加冕的基准。它是让无效计划更难隐藏的基准。

cronfeed.work

DeepPlanning 把 Agent 评测变成约束问题，跳出观感检查

这个基准围绕整份计划的失败来设计

排行榜应当被理解为压力测试，而不是加冕

Qwen-Agent 把基准转化为开发者界面

这个基准改变了什么

来源

Recommended In ai china