放在 2026-04-01 UTC 这个时点去看,理解 AI-China 公开市场的一种更有效方式,是先把“谁做出了唯一决定性的模型”这个问题放到一边,转而去看,谁在把产品整理成更清楚的工作负载组合。[1][2][3][4][5][6][7] 这些公司公开页面里反复出现的结构已经越来越清楚:一条负责快速通用任务的路线,一条承接更重推理的路线,一组多模态路线,一种开放或可自托管的入口,再加上一层把能力沉淀成开发者习惯或用户习惯的执行表面。
这里说的是现场信号,并非“所有公司已经在技术与商业上完全收敛”的判断。模型质量仍有差异,价格仍有差异,企业落地深度也仍有差异。可从公开包装方式看,思路已经变得相当一致。厂商不再满足于被看作某个旗舰 checkpoint 的作者,它们更希望自己被理解成一组组合的管理者,让更多任务能够留在同一套命名、同一套 API 习惯、同一套产品家族之内。[1][2][3][4][5][6][7]
顺着这些来源往下读,一个更扎实的推断会浮现出来:竞争单位正在从“单一模型”滑向“切换成本最低的工作负载地图”。这并非任何一家公司的原话,它是把这些官方材料连起来之后最顺的解释。
配图说明:题图使用 Wikimedia Commons 上 WAIC 2025 阿里巴巴 Quark 智能眼镜展品的现场照片。它在这里作为一种场域图像是成立的,因为本文讨论的正是中国 AI 产品如何被包装成可见的表面、路线与设备,而不再只以排行榜抽象物的形式出现。[8]
反复出现的组合,本身就是信号
先看这些公开材料里反复回来的部件。
百度在 2025 年 6 月 30 日 发布的 ERNIE 4.5 说明里,把一整套 10 模型家族 摆到了台前,其中包括激活参数规模分别为 47B 与 3B 的 MoE 路线、总参数量 424B 的顶配模型,以及 0.3B 的稠密模型,同时放在 Apache 2.0 许可之下。[1] 腾讯混元的公开页面则把偏快的通用路线与偏重的推理路线区分开来,OpenAI 兼容文档又把它们包在熟悉的 base_url 与 /chat/completions 调用习惯里。[2][3] Qwen 在 2025 年 4 月 29 日 的 Qwen3 发布里,把 dense 与 MoE 的尺寸铺开,同时把 thinking mode 与 non-thinking mode 作为家族语法的一部分。[4][5] Moonshot 的 Kimi K2.5 页面继续往上抬了一层,把 Instant、Thinking、Agent 与 Agent Swarm 直接写成产品模式,而 Kimi Code 又把这套分层落到终端与 IDE 工作表面里,明确给出 256K 上下文与 MCP 支持。[6][7]
这些公司当然没有逐句相互模仿,可它们都在做同一件事:展示覆盖面。面向市场的那句话,已经更像“你的任务变得更长、更慢、更依赖工具、更偏多模态或更偏执行时,仍然可以留在我们这里”,而并非“我们拥有一款无可置疑的唯一模型”。
百度与腾讯,把组合结构摆得最直白
百度与腾讯适合作为起点,因为它们的公开材料把这种组合结构摆得相当清楚。
百度推出 ERNIE 4.5 时,交出来的并不只是一款大模型,它同时交出了一张尺寸与模态的表。[1] 从公开信息看,这套家族已经从紧凑的稠密路线一直拉到更重的多模态 MoE 路线,于是边缘部署、长上下文、多语言与视觉语言任务,都被收拢在同一个 ERNIE 伞面之下。[1]
腾讯混元的动作属于另一种相近逻辑。它在产品表面上把偏快的通用路径与偏重的推理路径分开,同时又通过兼容 OpenAI 的接口文档,尽量不让这种分层变成产品断裂。[2][3] 当一家厂商能够把不同强度的推理能力放在稳定的 OpenAI 风格调用模式后面,用户被训练出来的习惯就会更接近“在同一套栈内做路由”,而不会轻易滑到“离开这套栈再找另一家”。[3]
这件事之所以重要,在于组合设计一半是延迟与成本问题,一半是接口问题。路线可以增多,客户端习惯仍然保持熟悉,厂商就更容易把周边工作流留在自己这边。
Qwen 与 Moonshot,把同一逻辑推进到行为层
Qwen 与 Moonshot 进一步说明,这已经不只是“模型家族 marketing”。
Qwen3 的官方发布当然会谈旗舰尺寸,可真正更锋利的一步,在于它把 thinking 与 non-thinking 行为模式写进家族结构里,同时让 dense 与 MoE 两条尺寸线一起展开。[4][5] 仓库页面又不断把开发者引向不同入口:托管聊天、Hugging Face、ModelScope、本地运行说明、部署框架以及应用层集成。[5] 这已经是工作负载组合的动作了。用户在不同环境之间移动,品牌与家族结构仍然保持连续。
Moonshot 则把这种组合进一步做成了任务形状。Kimi K2.5 的官方页面把公开产品直接分成四种工作模式,从快速回答一直铺到多代理项目执行。[6] Kimi Code 又把这套逻辑带进软件工作本身,通过长上下文、MCP 与 IDE 支持,把执行表面写成操作性特征,而并非研究层面的点缀。[7] 换言之,Moonshot 在分层的,已经不只是模型能力,也包括工作方式。
也正因为如此,用“工作负载组合”来描述整个场域,会比“模型家族”更有解释力。模型家族仍然可以只是静态目录;工作负载组合则天然带着路由逻辑、表面设计与预期管理,指向不同类型的任务应该落在哪条线上。
这会怎样改变外部开发者的判断
对外部开发者来说,这里最实用的读法并不复杂:评估 AI-China 这条线时,不要把问题压成“哪家旗舰模型今天在公开榜单里领先”。
更值得问的一组问题,会更窄,也更接近真实软件成本:
- 谁把快路径与重路径分得清楚?
- 谁能把这些路径放在干扰最小的接口边界后面?
- 谁给出了从托管调用走向开放权重或本地部署的可信路径?
- 谁已经把能力做成可用的执行表面,而并非只停留在 model card?
这些问题,比单看 benchmark 更容易贴近真实的软件成本,也更贴近这些公司公开材料真正强调的东西。[1][2][3][4][5][6][7]
接下来该盯什么
后面有三类现场信号值得持续看。
第一,看命名是否稳定。组合逻辑一旦遇到 alias、能力承诺与 reasoning 开关频繁漂移,文档很快就会追不上,组合本身也会失去抓手。[2][3][4][5]
第二,看开源路线与托管路线是否仍然相互咬合。开放权重、文档、playground 与托管 API 如果继续相互支撑,工作负载组合这条判断会更强;如果它们分裂成几条彼此孤立的营销线,判断也会随之变弱。[1][4][5]
第三,看执行表面是否继续变深。真正站住位置的公司,往往并非菜单越做越大的一批,而是能把模型组合持续压进工作习惯里的一批。[6][7]
落到最后一句,眼下可见的 AI-China 竞赛,已经很难再用“寻找唯一赢家”来概括。更贴切的说法,是谁能把更广的一段有用工作,收进更少、也更平顺的表面里。
来源
- ERNIE Blog,《ERNIE 4.5 模型系列正式开源》(2025 年 6 月 30 日;官方中文发布说明,涵盖 10 模型家族、47B/3B 激活参数 MoE 路线、424B 顶配模型、0.3B 稠密路线与 Apache 2.0 开源)。
- 腾讯云,《腾讯混元大模型》产品页(官方公开页面,展示混元当前的快路径与推理路径分层)。
- 腾讯云文档,《混元 OpenAI 兼容接口相关调用示例》(官方兼容文档,给出共享
base_url与/chat/completions调用模式)。 - Qwen Team,《Qwen3: Think Deeper, Act Faster》(官方发布文章,日期为 2025-04-29,覆盖 dense 与 MoE 版本,以及 thinking / non-thinking 模式)。
- Qwen Team,《Qwen3》GitHub 仓库 README(官方家族总览,涵盖托管、开源权重、本地运行、部署与框架入口)。
- Kimi,《Kimi K2.5 | Open Visual Agentic Model for Real Work》(官方产品页,覆盖 Instant、Thinking、Agent 与 Agent Swarm 模式)。
- Kimi,《Kimi Code: Next-Gen AI Code Agent for Terminal & IDE》(官方页面,涵盖 256K 上下文、100 tokens/s、MCP 与 IDE 支持)。
- Wikimedia Commons,《File:WAIC 2025 - Alibaba Quark Glasses 01.jpg》(本文题图所用 WAIC 2025 展会照片来源页)。