把时间锚定在 2026-04-21 UTC,昆仑芯在 AI-China 语境里的有效信号,并非一条单独的加速卡新闻。更强的信号,是围绕 P800 正在形成的集群契约:一颗国产芯片必须同时带来节点形态、互联叙事、模型适配证据,以及一条软件路径,让运营方可以运行可识别的大模型工作负载,而不用从零重新拼装整套系统。[1][2][3][5]

这一层差别很重要,因为中国算力瓶颈已经越过了“非英伟达加速器能不能发布”的阶段。更难的问题在于,它们能不能被做得足够生产化、足够日常。模型团队采购的并非抽象的“自主算力”,而是一条在真实成本与供应约束下训练、精调、服务、监控和排障大模型的路径。昆仑芯近期公开材料值得看,原因正在于它们持续把注意力从单卡本身引向外部操作包络。

图片说明:题图来自昆仑芯官方发布的 2025 年中关村论坛 64 卡超节点服务器展会照片。这是一张真实活动与服务器照片,并非图表或生成视觉,并且直接对应本文所讨论的国产 AI 算力封装问题。[1]

超节点成为产品形态

昆仑芯 2025 年 3 月关于中关村论坛的文章写到,公司与中国移动公开展示了一台基于 P800 的 64 卡超节点 AI 算力服务器,并采用 OISA,也就是 Omni-directional Intelligent Sensing Express Architecture,用于支持单柜内全互联。[1] 这正是本文的入口,因为它重新界定了产品。公开材料所说的并非单纯“这里有一颗芯片”,而是“这里有一个更高密度的算力单元,并且它自带通信假设”。

昆仑芯把超节点描述为突破传统单机 8 卡形态,在一个服务器节点中容纳几十乃至数百张 AI 芯片,并通过高带宽、低时延互联降低多芯片并行计算中的通信损耗。[1] 这些表述属于厂商披露,但方向本身关键。大模型训练与推理越来越同时是算术问题和通信问题。模型规模、上下文窗口、MoE 路由把流量推向卡间之后,国产加速器已经无法只靠算力峰值或显存容量获胜,它必须把加速器之间的连接也纳入产品。

这也解释了昆仑芯材料里“一柜抵百机”一类表述的意义。[1] 它带有宣传色彩,但指向的部署愿望是真实的:运营方需要一个可以规划的单元。若一个机柜能够以相对完整的方式采购、制冷、联网和调度,国产芯片叙事就更容易进入运营场景。若每一次部署都变成定制集成项目,采购成功就不会自然转化为模型吞吐。

OISA 把论点从硅片推向织网

2025 年中国算力大会材料把互联层写得更清楚。昆仑芯称,它与中国移动、之江实验室及服务器厂商共同启动 OISA 生态共建战略合作,并发布 OISA 2.0 协议。同一来源还写到,昆仑芯超节点产品所采用的自研互联通信协议 XPU Link 已实现对 OISA 协议的兼容。[2]

技术数字构成锚点:昆仑芯称 OISA 2.0 将支持的 AI 芯片数量提升至 1,024 张,带宽突破 TB/s 级别,互联时延降至 数百纳秒。[2] 这些是公司披露的协议主张,不能等同于第三方复现实测,但战略含义已经清楚。国产算力竞争正在成为织网能力竞争。

这比第一波 AI 芯片发布更成熟。早期阶段,芯片厂商只要证明国产加速器存在,并能跑通常见框架,就足以获得关注。当前阶段,关键问题变成很多加速器能否像一个有效系统那样运作。OISA 在这一点上重要,因为它试图给集群层提供共同语言。缺少这一层,每家硬件厂商都容易困在自己的驱动、通信库与运维意外之中。

昆仑芯在其中的位置也有政策与商业层面的可读性。它并非把 P800 卡卖进真空,而是在把 P800 放进更大的中国算力网络建设里,周围有运营商、实验室和服务器厂商。[2] 这不自动保证采用,但会把采用界面从“相信这颗芯片”,改写成“相信芯片、互联、服务器与国家算力基础设施组成的一套堆栈”。

DeepSeek 适配是边界测试

昆仑芯关于 DeepSeek 最有价值的主张,并非 P800 忽然等同于所有进口 GPU 集群。更准确的主张要窄一些。2025 年 4 月,昆仑芯称其 P800 单机 8 卡一体机率先通过中国信通院 DeepSeek 适配测试,测试对象为满血版 DeepSeek-V3/R1 671B,精度与 DeepSeek 技术报告对齐,并支持长上下文推理。[3]

测试语境很关键。同一篇文章写到,中国信通院 AISHPerf 体系覆盖芯片、计算设备、智算集群、网络通信、开发框架、系统软件、能力平台与关键应用,DeepSeek 测试方法也考虑并发数、BatchSize、上下文长度、在线/离线场景与产品功能。[3] 换言之,这并非一个简单的徽标兼容认证,而是面向买方所关心的系统级问题:这项产品能否在实际服务条件下支撑模型。

DeepSeek-V3 技术报告提供了规模参照:V3 是一个 MoE 模型,拥有 671B 总参数,每个 token 激活 37B 参数。[6] 这让适配主张具有意义,也同时界定了边界。通过支持测试,并不证明每一种企业工作负载都能在 P800 上低价、快速、轻松地运行。它说明的是,国产加速器厂商正在接受大型、可识别模型家族的检验,而不再只面对玩具演示。

这正是 2026 年 AI-China 应该采用的标准。市场已经有足够多模型新闻。真正需要的是模型与硬件接触面上的证据:上下文长度、批处理、并发、精度、内存移动、失败恢复。昆仑芯的 DeepSeek 材料更适合作为这一转变中的一个数据点来读。[3][6]

大规模集群把证明推向运营

昆仑芯 2025 年北外滩论坛文章进一步把故事从节点推到装机基础。公司称,P800 采用 100% 自研 XPU-P 架构,已经实现 万卡集群部署,累计部署超过 数万片,最大集群规模超过 3 万卡。[4] 同一来源还称,2025 年 4 月,昆仑芯在国家算力枢纽节点实现 3.2 万卡超大规模集群部署,可以承载多个千亿参数大模型全量训练,并支持上千客户做百亿参数模型精调。[4]

这些仍然是厂商披露的部署主张,需要按这一性质理解。它们仍有意义,因为国产 AI 算力已经不能只靠峰值演示来判断。真正的运营证明,在于集群能否被安装、保持忙碌,并暴露给足够多客户,让软件问题浮现并被修复。展台上几台漂亮设备不会自动形成生态,反复部署才会。

在这里,昆仑芯故事与中国更大的 AI 供应链相交。国产加速器同时承载战略负担与现实负担。战略上,它们降低对受限供应的依赖。现实中,它们要吸收模型实验室、云厂商、银行、运营商和工业用户的负载,而这些客户有不同的可靠性与数据本地化要求。若 3 万卡级别主张能够在真实使用里站住,意义不在单个英雄式集群,而在调度、互联、制冷、故障处理、框架支持与客户上手能否重复。

这也是来源中运营商与金融线索重要的原因。昆仑芯材料在超节点和 OISA 语境里提到中国移动,其他材料又指向金融与国家算力枢纽部署。[1][2][4] 这些客户最在意可管理供应链与本地部署边界,也最无法接受需要长期手工照料的实验性基础设施。

FastDeploy 是缺失的软件桥

对这条堆栈逻辑最有力的外部确认,来自百度 FastDeploy 2.0 文档。百度把 FastDeploy 2.0 描述为基于飞桨的大模型推理与部署工具包,支持 OpenAI 兼容 API 服务、与 vLLM 对齐的接口、低至 8-bit、4-bit、2-bit 的量化、Prefill/Decode 分离、负载感知调度,并支持包括 NVIDIA GPU、KUNLUNXIN P800、Iluvatar BI-V150、Hygon K100AI、Enflame S60 在内的异构硬件。[5]

这份清单重要,因为它把 P800 从硬件翻译成开发者可操作的路径。FastDeploy 文章甚至给出了在 KUNLUNXIN P800 硬件上部署 ERNIE-4.5-300B-A47B-Paddle 的具体示例,包括预编译的 fastdeploy-xpu 容器、XPU_VISIBLE_DEVICES、张量并行规模、量化设置,以及 OpenAI 兼容的 chat-completions 端点。[5] 这一层细节决定国产加速器能不能进入真实工程流程。

没有这座桥,P800 采用会过度依赖厂商定制支持。有了它,至少一部分路径变得可识别:API server、张量并行、量化服务、vLLM 式部署预期。重点并非 FastDeploy 消除了硬件差异,而是软件层正在减少口号遮蔽的差异,并把更多差异暴露为配置。

接下来该看什么

三条信号会决定昆仑芯 P800 路线能否变得耐久。

第一,看 OISA 兼容性能否转化为多厂商运营证明。协议数字只有在服务器厂商、运营商和模型平台可以摆脱一次性集成项目时,才真正有用。[2]

第二,看 DeepSeek 与 ERNIE 适配主张是否继续从支持测试推进到公开的吞吐、时延、上下文长度与可靠性证据,并且这些证据要有可比较设置。[3][5][6] 后续更有价值的披露,应当展示服务包络、失败率和持续工作负载成本,而不只是“某模型可运行”。

第三,看 FastDeploy 这类软件路径是否继续保持一等位置。模型团队若能使用熟悉的服务抽象,同时理解硬件特定约束,国产芯片就更容易被采用。[5]

因此,昆仑芯 P800 的故事大于一张卡,也小于完整胜利叙事。真正的信号在于,中国 AI 算力正被包装为一种集群契约:加速器、互联、服务器形态、模型适配、部署工具与客户环境必须共同成立。[1][2][3][5]

来源

  1. 昆仑芯,《昆仑芯 inside:超节点 AI 算力服务器亮相 2025 中关村论坛》(2025-03-31),本文题图来源页,并覆盖 64 卡 P800 超节点与 OISA 描述。
  2. 昆仑芯,《2025 中国算力大会 X 昆仑芯:共启 OISA 生态建设》(2025-09-25),覆盖 OISA 2.0、XPU Link 兼容、1,024 张芯片支持、TB/s 级带宽与数百纳秒时延主张。
  3. 昆仑芯,《昆仑芯 P800 单机 8 卡一体机通过中国信通院 DeepSeek 适配测试》(2025-04-17),覆盖 AISHPerf、DeepSeek-V3/R1 671B 支持测试、并发数、BatchSize 与上下文长度评估框架。
  4. 昆仑芯,《以技术突破推动 AI 算力创新,昆仑芯受邀亮相北外滩论坛》(2025-09-25),覆盖 P800 XPU-P 架构、万卡与 3.2 万卡部署主张,以及行业部署范围。
  5. Baidu ERNIE Blog, "FastDeploy 2.0: A Large-Scale Model Inference and Deployment Toolkit with Native Support for ERNIE 4.5"(2025-08-14),覆盖 OpenAI 兼容服务、量化、异构硬件,以及 P800 部署示例。
  6. DeepSeek AI, "DeepSeek-V3 Technical Report"(arXiv,2024-12),为适配讨论中的 671B 总参数 / 37B 激活参数 MoE 模型家族提供规模参照。