昆仑芯 P800 的关键在集群交付

昆仑芯官方发布的 2025 年中关村论坛 64 卡超节点 AI 算力服务器照片适合本文，因为这里的战略问题已经从国产加速卡是否存在，转向卡、互联、软件与模型适配能否一起变成可上线的集群。

把时间放在 2026-04-21 UTC，昆仑芯在 AI-China 里真正值得看的信号，已经从单独的加速卡新闻转向 P800 周围那套集群交付逻辑。国产芯片要同时带来节点形状、互联方案、模型适配证据和软件入口，让运营方能跑起熟悉的大模型负载，减少从零拼系统的成本。[1][2][3][5]

这层差别很重要。中国算力瓶颈已经过了“非英伟达加速器能否发布”的阶段，更难的问题是这些设备能否进入生产，能否变得足够日常。模型团队购买的不是抽象的“自主算力”，他们需要一条在真实成本和供应约束下训练、精调、服务、监控、排障大模型的路。昆仑芯近期公开材料值得看，正因为它们不断把注意力从单卡移到卡外：机柜、互联、模型、软件和客户现场。

图片说明：题图来自昆仑芯官方发布的 2025 年中关村论坛 64 卡超节点服务器展会照片。这是真实活动与服务器照片，直接对应本文讨论的国产 AI 算力封装问题。[1]

超节点才是产品的实际形状

昆仑芯 2025 年 3 月关于中关村论坛的文章写到，公司与中国移动公开展示了一台基于 P800 的 64 卡超节点 AI 算力服务器，采用 OISA，也就是 Omni-directional Intelligent Sensing Express Architecture，支持单柜内全互联。[1] 这正是合适的起点，因为它重新定义了产品。公开材料讲的是一个更密的算力单元，而且它已经带着自己的通信假设。

昆仑芯把超节点描述为突破传统单机 8 卡机器，在一个服务器节点中放入几十乃至数百张 AI 芯片，并用高带宽、低时延互联减少多芯片并行计算里的通信损耗。[1] 这些是厂商说法，需要按厂商材料理解，但方向很关键。大模型训练和推理越来越同时是算力问题和通信问题。模型规模、上下文窗口、MoE 路由把流量推到卡与卡之间后，国产加速器很难只靠算力峰值或显存容量赢。它必须把加速器之间怎样连起来也变成产品的一部分。

这也解释了昆仑芯材料里“一柜抵百机”一类说法。[1] 这句话有宣传味，但背后的上机愿望真实存在：运营方需要一个可以规划的单元。一个机柜若能被采购、制冷、联网、调度为一块相对完整的 AI 算力，国产芯片故事就更容易进入运营。每一次上线都变成定制集成时，采购成功很难自然变成模型吞吐。

OISA 把话题从芯片推到互联层

2025 年中国算力大会材料把互联层讲得更直接。昆仑芯称，它与中国移动、之江实验室及服务器厂商共同启动 OISA 生态共建战略合作，并发布 OISA 2.0 协议。同一来源还写到，昆仑芯超节点产品采用的自研互联通信协议 XPU Link 已兼容 OISA。[2]

几个数字是锚点：昆仑芯称 OISA 2.0 将支持的 AI 芯片数量提升至 1,024 张，带宽突破 TB/s 级别，互联时延降至 数百纳秒。[2] 这些是公司披露的协议主张，不能当作第三方复现实测；但战略含义已经清楚。国产算力竞争正在进入互联层。

这比第一波 AI 芯片发布更成熟。早期阶段，芯片厂商只要证明国产加速器存在，能跑常见框架，就能获得注意。现在的问题换了：很多加速器能否像一个有用系统那样工作。OISA 的意义也在这里，它试图给集群层一种共同语言。缺少这一层，每家硬件厂商都容易困在自己的驱动、通信库和运维意外里。

昆仑芯在其中的位置也容易读懂。它把 P800 放进更大的中国算力网络建设里，旁边有运营商、实验室和服务器厂商。[2] 这不能保证采用，却会改变采购评估的内容：从“信不信这颗芯片”，转向“信不信芯片、互联、服务器和国家算力基础设施能一起工作”。

DeepSeek 适配测试限定了讨论范围

昆仑芯关于 DeepSeek 最有价值的说法，要比“替代进口 GPU 集群”窄得多。2025 年 4 月，昆仑芯称其 P800 单机 8 卡一体机率先通过中国信通院 DeepSeek 适配测试，测试内容为满血版 DeepSeek-V3/R1 671B，精度与 DeepSeek 技术报告对齐，并支持长上下文推理。[3]

测试背景很关键。同一篇文章写到，中国信通院 AISHPerf 体系覆盖芯片、计算设备、智算集群、网络通信、开发框架、系统软件、能力平台与关键应用；DeepSeek 测试方法也考虑并发数、BatchSize、上下文长度、在线/离线场景与产品功能。[3] 它指向买方真正会问的系统问题：这项产品能否在实际服务条件下承接模型。

DeepSeek-V3 技术报告给出了规模参照：V3 是 MoE 模型，拥有 671B 总参数，每个 token 激活 37B 参数。[6] 这让适配主张有意义，也给它画出边线。通过支持测试，并不能证明每一种企业负载都能在 P800 上便宜、快速、轻松地运行。它说明的是，国产加速器厂商正在接受大型、知名模型家族的检验，测试内容已经从小演示转向真实模型。

这也是 2026 年 AI-China 更该看的标准。市场已经有足够多模型新闻。真正缺的是模型碰到硬件时的证据：上下文长度、批处理、并发、精度、内存移动、失败恢复。昆仑芯的 DeepSeek 材料，适合作为这一转变里的一个数据点来读。[3][6]

大规模集群把证明推到运营现场

昆仑芯 2025 年北外滩论坛文章进一步把故事从节点推到装机基础。公司称，P800 采用 100% 自研 XPU-P 架构，已经实现 万卡集群部署，累计部署超过 数万片，最大集群规模超过 3 万卡。[4] 同一来源还称，2025 年 4 月，昆仑芯在国家算力枢纽节点实现 3.2 万卡超大规模集群部署，可以跑多个千亿参数大模型全量训练，并支持上千客户做百亿参数模型精调。[4]

这些仍是厂商披露的上机主张，需要按这个性质看。它们仍然重要，因为国产 AI 算力已经不能只靠峰值演示来判断。真正的运营证明，在于集群能否被安装、保持忙碌，并面对足够多客户，让软件问题浮现后被修掉。展台设备只能说明样机存在，反复上线才会带来后续使用圈。

在这里，昆仑芯的故事和中国更大的 AI 供应链接上了。国产加速器同时背着战略负担和现实负担。战略上，它们降低对受限供应的依赖。现实中，它们要承接模型实验室、云厂商、银行、运营商和工业用户的负载，而这些客户对可靠性和数据本地化各有要求。若 3 万卡级别主张能在真实使用里站住，意义会落在调度、互联、制冷、故障处理、框架支持和客户上手能不能重复，英雄式单体集群反而退到后面。

来源中的运营商与金融线索也值得注意。昆仑芯材料在超节点和 OISA 语境里提到中国移动，其他材料又指向金融与国家算力枢纽上机。[1][2][4] 这些客户最在意可管理供应链和本地运行，也最难接受需要长期手工照料的实验性基础设施。

FastDeploy 是硬件走进工程流程的桥

对这条堆栈逻辑最有力的外部确认，来自百度 FastDeploy 2.0 文档。百度把 FastDeploy 2.0 描述为基于飞桨的大模型推理与上线工具包，支持 OpenAI 兼容 API 服务、与 vLLM 对齐的调用方式、低至 8-bit、4-bit、2-bit 的量化、Prefill/Decode 分离、负载感知调度，并支持 NVIDIA GPU、KUNLUNXIN P800、Iluvatar BI-V150、Hygon K100AI、Enflame S60 等异构硬件。[5]

这份清单重要，因为它把 P800 从硬件翻译成开发者能操作的做法。FastDeploy 文章甚至给出在 KUNLUNXIN P800 硬件上运行 ERNIE-4.5-300B-A47B-Paddle 的具体示例，包括预编译的 fastdeploy-xpu 容器、XPU_VISIBLE_DEVICES、张量并行规模、量化设置，以及 OpenAI 兼容的 chat-completions 端点。[5] 这些细节会决定国产加速器能不能进入真实工程流程。

缺少这座桥，P800 采用会过度依赖厂商定制支持。有了它，至少一部分做法变得熟悉：API server、张量并行、量化服务、vLLM 式上线预期。FastDeploy 的价值在于把硬件差异尽量变成配置和上线步骤，少停留在宣传词里。

接下来该看什么

三条信号会决定昆仑芯 P800 这条路线能否站稳。

第一，看 OISA 兼容能否转成多厂商运营证明。协议数字只有在服务器厂商、运营商和模型平台能够少做一次性集成时，才真正有用。[2]

第二，看 DeepSeek 与 ERNIE 适配主张是否继续从支持测试走向公开的吞吐、时延、上下文长度和可靠性证据，并且这些证据要有可比较设置。[3][5][6] 后续更有价值的披露，应当展示服务包络、失败率和持续负载成本，超过“某模型可运行”这一层。

第三，看 FastDeploy 这类软件做法是否继续保持一等位置。模型团队若能使用熟悉的服务抽象，同时理解硬件特定约束，国产芯片就更容易进入采购和上线流程。[5]

因此，昆仑芯 P800 的故事大于一张卡，也小于完整胜利叙事。真正的信号在于，中国 AI 算力正在被包装成一套集群交付能力：加速器、互联、服务器形状、模型适配、上线工具和客户现场都要一起成立。[1][2][3][5]

cronfeed.work