中国大模型市场里最显眼的叙事,是 OpenAI 兼容接口(可直接复用 OpenAI SDK 调用方式)降低了迁移门槛。没那么显眼、但更关键的变化是:真实成本又在拉开差距,驱动因素变成了接口地理位置、模型快照时钟,以及计费拓扑。

这就是 2026Q1 的“已定价 vs 新变量”错位:表面上各家 token 报价看起来接近,但采购结果越来越取决于请求在哪个区域跑走的是别名还是快照版本、以及token 折扣和惩罚如何结算。[1][2][3][4][5]

图片说明:题图是一张分析型辅助图,把市场最容易被低估的三个价差来源压缩在一张图里:区域入口、快照治理、以及计费形态。

发生了什么:兼容性收敛了,运行面没有收敛

“兼容”这件事是真的:

从工程视角看,这降低了迁移摩擦;但从财务视角看,竞争焦点已经从“SDK 锁定”转到“控制平面怎么设计”。难题不再是能不能迁移请求,而是迁移之后能否把延迟、合规边界和账单波动控制在可预算范围内。

新的基差来自地理,不只来自模型能力

阿里云模型目录和价格表把这件事写得最直白。以 Qwen3-Max 这一档服务为例,不同部署模式的最低标价差距已经不小:

在不考虑流量结构之前,这已经约等于输入 3.5 倍、输出 4.4 倍 的价差。[4]

这并非“价格表角落里的细节”。对有跨境用户流量、区域数据要求或多主体结算需求的公司来说,接口地理位置正在变成预算一阶变量。

这里还有一个值得注意的褶皱:阿里云当前价格页同时列出了 global 线路,入口位于弗吉尼亚、算力全球调度,而它在部分旗舰档位上的最低价仍与中国内地档接近;真正显著抬价的是 international 这条新加坡入口线路。[4] 这意味着市场并非简单地按“内地 vs 海外”切开,买方实际买到的是一整套区域与计费绑定包。

直接看结论:只看模型型号,已经解释不了大部分成本差异。地理位置选择在成本解释中的权重正在上升。

快照节奏正在变成预算变量

DeepSeek 更新日志显示,2025 年别名级升级频繁发生:2025-03-24(V3-0324)、2025-05-28(R1-0528)、2025-09-29(V3.2-Exp)、2025-12-01(V3.2)。[2] Qwen 文档也在生产接口中持续暴露日期化快照命名(例如 qwen-max-2025-01-25 及后续快照系列)。[1][3]

对运营团队来说,快速迭代是好事;但在预算层面会带来一个现实问题:性能与成本边界或许在同一采购周期内发生变化。

如果团队按“某月 benchmark + 某月单价”来做年度预算,却把流量挂在可变别名上,本质上是在没有显式对冲的情况下承担模型漂移风险。

计费拓扑会压过表面单价比较

DeepSeek 当前公开价格里,输入缓存命中与未命中的差距很大:

也就是输入侧先天就有 10 倍 差距。[6]

这件事的重要性在于:很多采购比价仍然只看一行“输入/输出单价”。但真实毛利更依赖工作负载形状——提示复用比例、上下文策略、路由策略,以及长上下文调用是否集中到某一条计费更高的通道。

所以,哪怕表面上在打价格战,具备更强缓存经济性、更清晰别名治理、以及更细区域流量控制能力的厂商,依旧或许守住利润。

百度三月信号:价格表述已成为竞争叙事武器

路透 3 月 16 日的报道里,百度将 ERNIE X1 描述为“价格是 DeepSeek R1 的一半”,并同步强调其推理能力定位。[7] 某一次“是否同等能力”的口径,未必能覆盖所有工作负载;但这类发布话术本身已经说明三件事:

  1. 竞争单元从“模型 IQ 头条”转向价格-性能通道匹配
  2. 发布会叙事开始把“能力 + 单价”打包输出。
  3. 买方需要投入更多验证工作,把发布口径和真实路由成本分开评估。

OpenAI 兼容接口很容易让管理层产生一种错觉:迁移更容易,就等于决策风险更低。实际情况是,迁移效率越高,验证纪律越要跟上;否则只是更快地轮换供应商,却没有把真实单位成本降下来。

一个 90 天采购排查动作

如果买方想把这篇文章的判断落到执行上,下面四项检查通常最值钱:

  1. 同一类工作负载至少按两条区域入口重新报价,不要只截一张单价表就进入采购判断。[3][4]
  2. 基准测试尽量锁定具名快照,而并非只测可变别名,这样下次静默升级后还能保住对照基线。[1][2][3]
  3. 预算模型里把缓存命中与未命中拆开,尤其是高复用提示词和长上下文产品。[6]
  4. 在上线前先把计费主体、合规边界、流量路径对齐,否则账单看起来完整,风险却已经先落进系统里。

2026Q2 值得盯的三个指标

比排行榜波动更值得持续看的,是下面三条:

  1. 区域价格图是否稳定:跨区域价差会收敛,还是继续维持结构性差距?[4]
  2. 别名退役是否透明:快照切换是否给到足够长的企业 QA 窗口?[2][3]
  3. 计费披露是否清晰:缓存、batch、长上下文的经济性是持续公开,还是被合并进模糊总价?[4][6]

这三条如果改善,竞争会更多落在服务质量和工具深度;如果不改善,市场在纸面上会显得更便宜,但生产预算会更难做。

结论

中国 AI API 市场已经不适合用“token 单价战”来概括。更深层的变化是控制平面经济学:接口地理位置、快照生命周期、计费拓扑,正在决定谁在规模化后真的更便宜。

还在只比表面 token 报价的团队,正在比较一个不完整的对象。

来源

  1. Qwen2.5-Max announcement (API naming + compatibility context)
  2. DeepSeek API change log (version/alias update cadence)
  3. Alibaba Cloud Model Studio OpenAI compatibility docs (regional base URLs + snapshot families)
  4. Alibaba Cloud Model Studio model catalog/pricing table (regional deployment pricing and context windows)
  5. Baidu Qianfan OpenAI-compatible docs (base URL and integration path)
  6. DeepSeek API pricing page (cache hit/miss and output pricing)
  7. Reuters report on Baidu ERNIE 4.5 / ERNIE X1 launch framing (2025-03-16)