中国大模型市场里最显眼的叙事,是 OpenAI 兼容接口(可直接复用 OpenAI SDK 调用方式)降低了迁移门槛。没那么显眼、但更关键的变化是:真实成本又在拉开差距,驱动因素变成了接口地理位置、模型快照时钟,以及计费拓扑。
这就是 2026Q1 的“已定价 vs 新变量”错位:表面上各家 token 报价看起来接近,但采购结果越来越取决于请求在哪个区域跑、走的是别名还是快照版本、以及token 折扣和惩罚如何结算。[1][2][3][4][5]
图片说明:题图是一张分析型辅助图,把市场最容易被低估的三个价差来源压缩在一张图里:区域入口、快照治理、以及计费形态。
发生了什么:兼容性收敛了,运行面没有收敛
“兼容”这件事是真的:
- 阿里云百炼文档给出北京、弗吉尼亚、新加坡的 OpenAI 兼容入口(
/compatible-mode/v1)。[3] - 百度千帆文档给出 OpenAI 兼容调用方式,对应 V2 base_url(
https://qianfan.baidubce.com/v2)。[5] - DeepSeek 与 Qwen 的发布信息都呈现了 OpenAI 风格调用路径,以及带日期的版本命名方式。[1][2]
从工程视角看,这降低了迁移摩擦;但从财务视角看,竞争焦点已经从“SDK 锁定”转到“控制平面怎么设计”。难题不再是能不能迁移请求,而是迁移之后能否把延迟、合规边界和账单波动控制在可预算范围内。
新的基差来自地理,不只来自模型能力
阿里云模型目录和价格表把这件事写得最直白。以 Qwen3-Max 这一档服务为例,不同部署模式的最低标价差距已经不小:
- 中国内地模式:输入最低 2.5 元 / 百万 token,输出 10 元 / 百万 token。[4]
- 国际模式(新加坡入口、非中国内地算力):输入最低 8.807 元 / 百万 token,输出 44.035 元 / 百万 token。[4]
在不考虑流量结构之前,这已经约等于输入 3.5 倍、输出 4.4 倍 的价差。[4]
这并非“价格表角落里的细节”。对有跨境用户流量、区域数据要求或多主体结算需求的公司来说,接口地理位置正在变成预算一阶变量。
这里还有一个值得注意的褶皱:阿里云当前价格页同时列出了 global 线路,入口位于弗吉尼亚、算力全球调度,而它在部分旗舰档位上的最低价仍与中国内地档接近;真正显著抬价的是 international 这条新加坡入口线路。[4] 这意味着市场并非简单地按“内地 vs 海外”切开,买方实际买到的是一整套区域与计费绑定包。
直接看结论:只看模型型号,已经解释不了大部分成本差异。地理位置选择在成本解释中的权重正在上升。
快照节奏正在变成预算变量
DeepSeek 更新日志显示,2025 年别名级升级频繁发生:2025-03-24(V3-0324)、2025-05-28(R1-0528)、2025-09-29(V3.2-Exp)、2025-12-01(V3.2)。[2] Qwen 文档也在生产接口中持续暴露日期化快照命名(例如 qwen-max-2025-01-25 及后续快照系列)。[1][3]
对运营团队来说,快速迭代是好事;但在预算层面会带来一个现实问题:性能与成本边界或许在同一采购周期内发生变化。
如果团队按“某月 benchmark + 某月单价”来做年度预算,却把流量挂在可变别名上,本质上是在没有显式对冲的情况下承担模型漂移风险。
计费拓扑会压过表面单价比较
DeepSeek 当前公开价格里,输入缓存命中与未命中的差距很大:
- 输入(缓存命中):$0.028 / 百万 token
- 输入(缓存未命中):$0.28 / 百万 token
- 输出:$0.42 / 百万 token[6]
也就是输入侧先天就有 10 倍 差距。[6]
这件事的重要性在于:很多采购比价仍然只看一行“输入/输出单价”。但真实毛利更依赖工作负载形状——提示复用比例、上下文策略、路由策略,以及长上下文调用是否集中到某一条计费更高的通道。
所以,哪怕表面上在打价格战,具备更强缓存经济性、更清晰别名治理、以及更细区域流量控制能力的厂商,依旧或许守住利润。
百度三月信号:价格表述已成为竞争叙事武器
路透 3 月 16 日的报道里,百度将 ERNIE X1 描述为“价格是 DeepSeek R1 的一半”,并同步强调其推理能力定位。[7] 某一次“是否同等能力”的口径,未必能覆盖所有工作负载;但这类发布话术本身已经说明三件事:
- 竞争单元从“模型 IQ 头条”转向价格-性能通道匹配。
- 发布会叙事开始把“能力 + 单价”打包输出。
- 买方需要投入更多验证工作,把发布口径和真实路由成本分开评估。
OpenAI 兼容接口很容易让管理层产生一种错觉:迁移更容易,就等于决策风险更低。实际情况是,迁移效率越高,验证纪律越要跟上;否则只是更快地轮换供应商,却没有把真实单位成本降下来。
一个 90 天采购排查动作
如果买方想把这篇文章的判断落到执行上,下面四项检查通常最值钱:
- 同一类工作负载至少按两条区域入口重新报价,不要只截一张单价表就进入采购判断。[3][4]
- 基准测试尽量锁定具名快照,而并非只测可变别名,这样下次静默升级后还能保住对照基线。[1][2][3]
- 预算模型里把缓存命中与未命中拆开,尤其是高复用提示词和长上下文产品。[6]
- 在上线前先把计费主体、合规边界、流量路径对齐,否则账单看起来完整,风险却已经先落进系统里。
2026Q2 值得盯的三个指标
比排行榜波动更值得持续看的,是下面三条:
- 区域价格图是否稳定:跨区域价差会收敛,还是继续维持结构性差距?[4]
- 别名退役是否透明:快照切换是否给到足够长的企业 QA 窗口?[2][3]
- 计费披露是否清晰:缓存、batch、长上下文的经济性是持续公开,还是被合并进模糊总价?[4][6]
这三条如果改善,竞争会更多落在服务质量和工具深度;如果不改善,市场在纸面上会显得更便宜,但生产预算会更难做。
结论
中国 AI API 市场已经不适合用“token 单价战”来概括。更深层的变化是控制平面经济学:接口地理位置、快照生命周期、计费拓扑,正在决定谁在规模化后真的更便宜。
还在只比表面 token 报价的团队,正在比较一个不完整的对象。
来源
- Qwen2.5-Max announcement (API naming + compatibility context)
- DeepSeek API change log (version/alias update cadence)
- Alibaba Cloud Model Studio OpenAI compatibility docs (regional base URLs + snapshot families)
- Alibaba Cloud Model Studio model catalog/pricing table (regional deployment pricing and context windows)
- Baidu Qianfan OpenAI-compatible docs (base URL and integration path)
- DeepSeek API pricing page (cache hit/miss and output pricing)
- Reuters report on Baidu ERNIE 4.5 / ERNIE X1 launch framing (2025-03-16)