截至 2026-03-19 UTC,中国模型栈里最常见也最昂贵的评测误差仍然很直接:团队在实时请求里比较模型质量,随后把这份排序直接用于真实生产,而真实生产里大量 token 消耗来自夜间回放、回归与补算。
这个错位在当前阶段影响更大,因为多家官方文档已经同时把三组约束写清楚:模式级推理控制、按区域绑定的能力差异、以及批处理/缓存折扣。[1][2][3][4]
于是会出现一个典型风险:标准基准里看起来“更强”的模型,进入真实流量后会在单位可靠决策成本上反而更弱。
2026Q1 的变化:评测边界已经变成一阶经济变量
当评测流程忽略执行边界,这不再是中性简化,而是带有成本后果的假设。
三条公开事实把这件事钉死了:
- Qwen3 把 thinking/non-thinking 与 thinking budget 写成显式能力,延迟与质量权衡进入可运营参数层,隐藏变量被压缩。[1][2]
- DeepSeek 公布了 non-thinking 与 thinking 的输出上限差异(默认 4K vs 32K,最大 8K vs 64K),长推理任务里如果输出上限没有对齐,结果可比性会被直接破坏。[3]
- 阿里云 Model Studio 把关键能力绑定到部署区域,区域矩阵里批量推理支持出现在新加坡与北京,US(Virginia)与中国香港未标注支持批量推理。[4]
当评分在一种 region/mode/cap 组合下得到,而生产跑在另一种组合里,这个分数最多只能当方向信号。
真实误判位置:只按实时成功率做总排名
许多团队仍然沿用同一条路径:
- 用实时调用跑一轮基准;
- 按通过率选第一名;
- 把这个排名覆盖到全部生产流量。
这条路径没有覆盖 token 的真实分布。在文档处理、质检回放、审计复跑这类场景里,回放与回归 token 体量经常高于在线交互 token。当批量通道可用时,回放段的有效单位成本会发生明显变化,因为公开规则写明支持模型可按实时价 50% 计费。[4]
因此,“只看实时”的评测实际只回答一个窄问题:
“这个实时 harness 里谁的交互质量更高?”
生产路由需要回答的是更大的问题:
“在我们真实的交互+回放 token 结构里,并在区域与治理边界内,谁的可靠决策成本更优?”
一个可落地的边界归一化指标
选型会上可以直接使用这条指标:
[ \text{Cost per reliable decision} = \frac{C{rt}\cdot T{rt} + C{batch}\cdot T{batch}}{N{correct}\cdot (1 - r{critical})} ]
其中:
- (C{rt})、(C{batch}):实时与批处理通道的有效单 token 成本;
- (T{rt})、(T{batch}):两条通道的 token 体量;
- (N_{correct}):任务集上的正确产出数;
- (r_{critical}):策略复审后的关键错误率。
这条式子会直接阻断常见误读,尤其在模型输出 token 膨胀程度不同、区域批处理可用性不同的情况下。
用公开价格做一个数值示例
设每周工作负载为 实时 10M 输入 + 2M 输出 token,以及回放 30M 输入 + 6M 输出 token。
通道 A:所选区域没有批处理支持
用 Qwen3-Max Global ≤32K 公价作为代表性实时通道:
- 输入:$0.359 / 1M;
- 输出:$1.434 / 1M。[4]
每周成本:
- 实时 = 10 × 0.359 + 2 × 1.434 = $6.458
- 回放(同实时价) = 30 × 0.359 + 6 × 1.434 = $19.374
- 合计 = $25.832
通道 B:同质量档位,但回放走批处理
保持实时段不变,回放改为支持批处理的通道,按公开 50% 规则计价。[4]
每周成本:
- 实时 = $6.458
- 回放(batch 5 折) = 0.5 × 19.374 = $9.687
- 合计 = $16.145
在质量不变前提下,仅仅部署边界不同,总 token 成本就会下降 37.5%。
如果评测报告没有写出这一层边界,它的模型排序可以在运营层面直接失真,即便它自己的 pass@k 表格在技术上没有算错。
为什么必须把 thinking 预算归一化
Qwen3 文档与技术报告都把混合 thinking/non-thinking 和自适应预算写成核心机制。[1][2] DeepSeek 文档则给出模式之间显著不同的输出上限。[3]
要让评测可比,至少要固定三件事:
- 模式策略(哪类任务开 thinking);
- 输出上限策略(例如 4K/8K/32K 档);
- 停止与重试策略(超时、重试、截断处理)。
这三项没有固定时,表面上的“模型质量差异”经常混入了预算策略差异。
团队内部评测卡的最小字段
每次准备改路由前,要求一页评测卡至少包含:
- 部署模式与区域;
- 实时与回放 token 占比;
- 该区域批处理是否可用;
- 按任务划分的模式策略(thinking vs non-thinking);
- 评测使用的最大输出上限;
- 通过率与关键错误率;
- 每可靠决策成本。
任一字段缺失时,建议标记为 directional,暂不进入 promotable。
可证伪点与观察清单
本文主张的证伪条件: 如果多组工作负载都能证明,在加入回放经济性和区域能力约束后,实时排序依然稳定不变,那么批处理感知归一化的重要性会低于本文判断。
未来 1–2 个季度建议观察:
- 区域矩阵是否把批处理能力扩展到当前未支持区域。[4]
- 模型更新后输出上限与默认上限是否变化。[3]
- 混合 thinking 控制接口是否持续稳定。[1][2]
- 团队升版文档里是否从 pass@k 单指标转向每可靠决策成本指标。
来源
- Qwen Team — Qwen3: Think Deeper, Act Faster (hybrid thinking/non-thinking controls, model lineup, context windows)
- Qwen3 Technical Report (arXiv:2505.09388) — unified thinking/non-thinking framework, adaptive budget framing, multilingual expansion to 119 languages
- DeepSeek API Docs — Models & Pricing (DeepSeek-V3.2 model mapping, context length, output ceilings, token pricing)
- Alibaba Cloud Model Studio — Model invocation pricing and region/deployment references (tiered pricing, batch 50% rule, region-bound behavior)
- Alibaba Cloud Model Studio — Choose a deployment mode (bound region, inference scope, cross-border responsibility, feature matrix including batch inference support by region)