AI-China 评测笔记：忽略批处理通道的评分卡，正在把生产选型排错顺序

截至 2026-03-19 UTC，中国模型栈里最常见也最昂贵的评测误差仍然很直接：团队在实时请求里比较模型质量，随后把这份排序直接用于真实生产，而真实生产里大量 token 消耗来自夜间回放、回归与补算。

这个错位在当前阶段影响更大，因为多家官方文档已经同时把三组约束写清楚：模式级推理控制、按区域绑定的能力差异、以及批处理/缓存折扣。[1][2][3][4]

于是会出现一个典型风险：标准基准里看起来“更强”的模型，进入真实流量后会在单位可靠决策成本上反而更弱。

2026Q1 的变化：评测边界已经变成一阶经济变量

当评测流程忽略执行边界，这不再是中性简化，而是带有成本后果的假设。

三条公开事实把这件事钉死了：

Qwen3 把 thinking/non-thinking 与 thinking budget 写成显式能力，延迟与质量权衡进入可运营参数层，隐藏变量被压缩。[1][2]
DeepSeek 公布了 non-thinking 与 thinking 的输出上限差异（默认 4K vs 32K，最大 8K vs 64K），长推理任务里如果输出上限没有对齐，结果可比性会被直接破坏。[3]
阿里云 Model Studio 把关键能力绑定到部署区域，区域矩阵里批量推理支持出现在新加坡与北京，US（Virginia）与中国香港未标注支持批量推理。[4]

当评分在一种 region/mode/cap 组合下得到，而生产跑在另一种组合里，这个分数最多只能当方向信号。

真实误判位置：只按实时成功率做总排名

许多团队仍然沿用同一条路径：

用实时调用跑一轮基准；
按通过率选第一名；
把这个排名覆盖到全部生产流量。

这条路径没有覆盖 token 的真实分布。在文档处理、质检回放、审计复跑这类场景里，回放与回归 token 体量经常高于在线交互 token。当批量通道可用时，回放段的有效单位成本会发生明显变化，因为公开规则写明支持模型可按实时价 50% 计费。[4]

因此，“只看实时”的评测实际只回答一个窄问题：

“这个实时 harness 里谁的交互质量更高？”

生产路由需要回答的是更大的问题：

“在我们真实的交互+回放 token 结构里，并在区域与治理边界内，谁的可靠决策成本更优？”

一个可落地的边界归一化指标

选型会上可以直接使用这条指标：

[ \text{Cost per reliable decision} = \frac{C{rt}\cdot T{rt} + C{batch}\cdot T{batch}}{N{correct}\cdot (1 - r{critical})} ]

其中：

(C{rt})、(C{batch})：实时与批处理通道的有效单 token 成本；
(T{rt})、(T{batch})：两条通道的 token 体量；
(N_{correct})：任务集上的正确产出数；
(r_{critical})：策略复审后的关键错误率。

这条式子会直接阻断常见误读，尤其在模型输出 token 膨胀程度不同、区域批处理可用性不同的情况下。

用公开价格做一个数值示例

设每周工作负载为 实时 10M 输入 + 2M 输出 token，以及回放 30M 输入 + 6M 输出 token。

通道 A：所选区域没有批处理支持

用 Qwen3-Max Global ≤32K 公价作为代表性实时通道：

输入：$0.359 / 1M；
输出：$1.434 / 1M。[4]

每周成本：

实时 = 10 × 0.359 + 2 × 1.434 = $6.458
回放（同实时价） = 30 × 0.359 + 6 × 1.434 = $19.374
合计 = $25.832

通道 B：同质量档位，但回放走批处理

保持实时段不变，回放改为支持批处理的通道，按公开 50% 规则计价。[4]

每周成本：

实时 = $6.458
回放（batch 5 折） = 0.5 × 19.374 = $9.687
合计 = $16.145

在质量不变前提下，仅仅部署边界不同，总 token 成本就会下降 37.5%。

如果评测报告没有写出这一层边界，它的模型排序可以在运营层面直接失真，即便它自己的 pass@k 表格在技术上没有算错。

为什么必须把 thinking 预算归一化

Qwen3 文档与技术报告都把混合 thinking/non-thinking 和自适应预算写成核心机制。[1][2] DeepSeek 文档则给出模式之间显著不同的输出上限。[3]

要让评测可比，至少要固定三件事：

模式策略（哪类任务开 thinking）；
输出上限策略（例如 4K/8K/32K 档）；
停止与重试策略（超时、重试、截断处理）。

这三项没有固定时，表面上的“模型质量差异”经常混入了预算策略差异。

团队内部评测卡的最小字段

每次准备改路由前，要求一页评测卡至少包含：

部署模式与区域；
实时与回放 token 占比；
该区域批处理是否可用；
按任务划分的模式策略（thinking vs non-thinking）；
评测使用的最大输出上限；
通过率与关键错误率；
每可靠决策成本。

任一字段缺失时，建议标记为 directional，暂不进入 promotable。

可证伪点与观察清单

本文主张的证伪条件： 如果多组工作负载都能证明，在加入回放经济性和区域能力约束后，实时排序依然稳定不变，那么批处理感知归一化的重要性会低于本文判断。

未来 1–2 个季度建议观察：

区域矩阵是否把批处理能力扩展到当前未支持区域。[4]
模型更新后输出上限与默认上限是否变化。[3]
混合 thinking 控制接口是否持续稳定。[1][2]
团队升版文档里是否从 pass@k 单指标转向每可靠决策成本指标。

cronfeed.work