把时间锚定在 2026-04-07 UTC,理解华为在 AI-China 里的位置,更有效的入口已经落在盘古单次升级更下层的地方。更耐读的信号落在基础设施。到 2025-04-24,华为云写得很明确,CloudMatrix 384 把算力供给方式从服务器级推进到矩阵级,而且已经在芜湖数据中心规模上线。[1] 到 2025-06-20,华为又把新的 AI Cloud Service 直接建立在 CloudMatrix 384 超节点之上,公开写出 384 个自有 NPU、192 个鲲鹏 CPU,以及单卡最高 2300 tokens/s 的推理吞吐能力。[2] 再把这些材料与 盘古、ModelArts Studio 的产品页连起来读,我的判断是,华为更想卖出的东西,是一块被预先塑形的算力底座,模型目录摆在第二层。[1][2][4]
这一点之所以重要,在于 AI-China 的竞争约束同时来自模型质量与包装方式:算力怎样被编组成一个单位,哪些模型可以放在这块底座上面,以及这整条栈怎样从中心云顺着同一种形态延伸到本地政企环境。华为最近公开释放的材料,越来越多是在拓扑层回答这些问题,单一 checkpoint 只占其中一层。[1][2][3][4]
图片说明:题图采用 Wikimedia Commons 上的华为深圳办公楼照片。这里需要一张真实的企业建筑照,因为文章讨论的是华为如何把 AI 基础设施架构变成一条可售卖、可部署、可迁移的商业边界,讨论重心落在企业系统与部署路径。[5]
CloudMatrix 384 正在被定义成一种新的供给单位
4 月 24 日那篇华为云稿件很有代表性,因为它并没有把 CloudMatrix 384 写成一台更大的机柜。[1] 文中给出的表述更直接:CloudMatrix 384 把资源供给从服务器级推进到矩阵级,背后依托的是“一切可池化、一切皆对等、一切可组合”的高速互联总线。[1] 同一段文字里又把三个关键词并列出来:高密、高速、高效。[1]
这套说法的意义,比表面看上去更深。大多数厂商卖加速器,习惯按单卡、单机、单服务器来组织对比,因为这些单位更容易被快速理解。华为在做的事情,是把比较边界整体往上抬。产品单位一旦被定义成一个矩阵,盒子级比较就会退到次要位置,客户最后评估的对象会转成许多板卡之间预先排布好的连接关系、内存流动方式,以及隐藏在这种形态背后的调度逻辑。[1]
放在供给受限的语境里,这一步尤其关键。一块以云服务形式交付的集群拓扑,可以在客户看不见的地方先消化掉大量上游异构性。4 月 24 日那篇稿件还把这个意图写得更直白:华为云同时强调了昇腾 AI 云服务的持续优化,并写到它已经适配了包含 DeepSeek 在内的 160 多个第三方大模型。[1] 这说明华为希望客户先站上同一块托管好的资源底板,再把不同模型家族放进来运行。
AI Cloud Service 把这种拓扑真正变成了可消费的服务
到 2025-06-20,华为云的英文稿把这个架构说法继续往前推了一层。[2] 文中明确写到,新一代 AI Cloud Service 是建立在 CloudMatrix 384 超节点上的,并把这个超节点定义为通过 MatrixLink 完成 384 个自有 NPU 与 192 个鲲鹏 CPU 点对点互联的系统。[2] 随后,文章给出了一项更接近用户感知的指标:单卡推理吞吐最高 2300 tokens/s,接近非超节点配置的 4 倍。[2]
到这里,拓扑已经从内部工程语言转写成一个服务边界。华为对外公开表达的内容,已经转向“这套集群形态现在就是一个可交付的 AI 云服务底座”。[2] 同一篇稿件还写到,这套超节点架构更适合承接 MoE 模型推理,可以采用单专家单卡的方式,并支持 384 个专家并发推理。[2] 这些数字是否足以证明更广泛的绝对领先,暂且放在一边;它们已经足够清楚地说明华为如今的公开叙事方式:集群结构本身已经被包装成服务的一部分。
也正因为如此,CloudMatrix 的故事天然属于 ai-china,同时带着明确的芯片与云服务双重属性。真正面向市场的对象,是一整套消费这组硬件的方式。
盘古仍然重要,但模型被持续摆在同一块底座之上
华为的 Pangu Large Models 产品页,可以帮助把上面这层逻辑看得更清楚。[4] 页面把盘古定义成一套面向 ToB 的模型体系,并明确拆成三层:L0 基础模型、L1 行业模型、L2 场景模型。[4] 这本身就是一种部署语法,服务对象落在企业与行业场景。华为一开始就在告诉客户,真正需要完成的工作,是把模型能力继续往行业与场景里压下去。
更能说明问题的是同一页里对 ModelArts Studio 的描述。页面写到,这个平台是企业访问 盘古模型与第三方模型 推理服务的统一入口,并且明确提到已经适配 DeepSeek R1/V3。[4] 华为对外讲述的故事,更接近于“真正稳定的层,是集群、入口和部署流程;模型家族可以放在它们上面流动”。[4]
这样一来,华为和其他 AI-China 参与者之间的比较方式也会跟着变化。如果它只靠一轮一轮旗舰模型争高下,那么位置会随模型周期剧烈波动;如果它争夺的是一块能同时承接盘古与外部模型的托管底座,那么更强的护城河就会落在打包方式与运维控制上。[1][2][4]
混合云延伸,才让这件事超出中心云故事
2025-06-21 那篇关于 华为云 Stack 的文章,是这条逻辑往下延伸的证据。[3] 华为写到,CloudMatrix 384 将在下半年适配进入 华为云 Stack,让政企客户也能在本地拥有自己的“云上超节点”。[3] 同一篇文章又把 Cloud Stack 的目标用户拆成数据中心工程师、数据工程师、AI 算法模型应用工程师与应用开发工程师,并且把产品能力组织在“建云、上云、用云、管云”的完整流程里。[3]
这一步会让“产品边界”这个判断更扎实。一个拓扑形态只落在华为中心云里时,更接近一项强势服务;当华为开始把同样的超节点形态往混合云、本地部署和政企训练中心里推,这套形态就会更像一种可复制的标准环境。[3] 对客户来说,购买的是围绕同一种集群形态和工具链组织本地 AI 平台的整套条件。
顺着这个角度看,华为面对的那类中国政企客户,本来就高度关心本地化、控制权、系统集成与排行榜波动。华为现在公开堆叠出来的整条栈,正是在回应这种需求。[3][4]
真正变化的地方
这次变化因此已经超过“盘古又升级了一次”这层表述。更关键的变化,是华为反复把同一条顺序摆到台前:
- 先用 CloudMatrix 384 定义更大的算力单位,让单服务器尺度退到次要位置;[1][2]
- 再把这个单位包装成 AI Cloud Service,配上明确的推理指标与 MoE 承载能力;[2]
- 再把 盘古 与第三方模型放到同一套企业入口与行业语法之上;[1][4]
- 最后把这套形态继续推向混合云,让本地客户保留的是整块拓扑结构。[3]
也正因为这条顺序足够清楚,我才会把华为这一步概括成“把集群拓扑做成产品边界”。它真正想让客户买下来的,是一块已经被准备好的 AI 工作环境,其中包含模型名、加速器和部署流程之间的整体关系。
来源
- 华为云,《华为云发布CloudMatrix 384超节点 多项性能全面突破》(2025-04-24;CloudMatrix 384 上市、算力供给从服务器级走向矩阵级、芜湖上线,以及包含 DeepSeek 在内的 160 多个第三方模型适配)。
- Huawei Cloud, "Huawei Cloud Announces Pangu Models 5.5 and All-new AI Cloud Service, Positioned as the AI Pioneer in Industries"(2025-06-20;AI Cloud Service 基于 CloudMatrix 384,包含 384 个自有 NPU、192 个鲲鹏 CPU,以及 2300 tokens/s 推理吞吐声明)。
- 华为云,《持续深耕,华为云Stack做智能时代更懂政企的云》(2025-06-21;CloudMatrix 384 适配进入华为云 Stack 混合云,以及面向政企本地超节点的定位)。
- Huawei Cloud, "Pangu Large Models" 产品页(ToB 三层 L0/L1/L2 架构,以及 ModelArts Studio 作为盘古与第三方模型统一入口,并注明适配 DeepSeek R1/V3)。
- Wikimedia Commons,《File:HuaweiShenzhen.jpg》(本文题图来源页)。