DeepSeek 的内核把模型效率变成供应链输出

这张 2015 年真实数据中心照片适合本文，因为 DeepSeek 的内核发布讲的是基础设施：实际问题在于模型效率如何穿过服务器、GPU、内存、通信路径和运行时库，而不只是出现在演示屏幕上。[6]

理解 DeepSeek，最容易停在模型卡这一层。更能长期反映 AI-China 的信号，已经下沉到下一层：DeepSeek 正在公开部分运行时底座，而这些底座让它的大型 MoE 与稀疏注意力模型具备实际部署条件。FlashMLA、DeepEP 和 DeepGEMM 不是面向消费者的产品。它们是内核级产物，指向注意力、专家路由和低精度矩阵乘法这些位置；在那里，一个模型究竟只是令人印象深刻，还是能够真正上线运行，会被直接决定。

因此，这更像是一篇堆栈与供应链更新，而不是另一则基准测试札记。中国 AI 竞争通常按模型名称讲述：Qwen、DeepSeek、GLM、Kimi、Hunyuan、ERNIE、InternLM。可生产采用越来越取决于这些名称之下的隐藏层。稀疏注意力模型需要专门的注意力内核。混合专家模型需要通信路径，把 tokens 送往专家，同时避免整块 GPU 被浪费在等待与搬运上。FP8 占比很高的服务栈，需要矩阵内核承受不寻常的形状、分组布局、预热行为和硬件约束。DeepSeek 给出的有效信号，是把这些部分作为可复用基础设施暴露出来，而不是留在一次训练运行的封闭内部。

注意力层正在成为产品边界

FlashMLA 是最清晰的入口，因为它直接点名了注意力问题。DeepSeek 将其描述为一组优化注意力内核库，用于支撑 DeepSeek-V3 和 DeepSeek-V3.2-Exp，并为 prefill 与 decoding 提供稀疏和稠密实现。[3] 稀疏一侧尤其重要，因为 V3.2-Exp 引入了 DeepSeek Sparse Attention，这是一种面向长上下文效率的做法，核心在于选择更少的 token 交互，而不是每次都支付完整稠密注意力的成本。[4]

性能数字需要谨慎阅读。FlashMLA 仓库报告了 H800 SXM5 上的一些结果，例如在内存受限配置下，稠密 MLA decoding 最高可达 3000 GB/s；在计算受限配置下，最高可达 660 TFLOPS；在其声明的 CUDA 配置下，使用 FP8 KV cache 的 token 级稀疏 MLA decoding 可达 410 TFLOPS。[3] 这些是第一方内核主张，并非通用部署保证。不过，战略重点并不依赖每个数字都能原样迁移。足够重要的是，DeepSeek 正在把注意力行为当作内核分发问题处理。

这对 AI-China 是一个实质变化。若一个模型的优势依赖某种注意力变体，而该变体只在私有栈里运转，外部团队就更难验证、服务或改造这个模型。相关内核一旦公开，采用问题随之改变。工程团队可以检查假设、测试硬件边界、对照自己的服务路径，并判断模型的效率主张在 DeepSeek 自有环境之外是否仍然成立。

专家并行是 MoE 进入运行状态的位置

DeepEP 面向一个光环较少但同样重要的 MoE 问题：把 tokens 送到专家，再合并输出，同时避免通信消耗过多时间或占用过多流式多处理器资源。仓库把 DeepEP 介绍为一套用于机器学习训练和推理的高性能通信库，重点放在专家并行上，包含用于 MoE dispatch 与 combine 的 all-to-all GPU 内核，并支持包括 FP8 在内的低精度格式。[2]

V2 笔记更值得看。DeepEP 称，这次重构转向更轻量的 NCCL Gin 后端，把高吞吐和低延迟 API 统一到 ElasticBuffer 接口下，支持最高 EP2048 的 scale-up 与 scale-out 域，并在保持等效或更好性能的同时，把 V3 类 legacy training 的 SM 使用量从 24 降到 4-6。[2] 这同样是第一方表述。但主张的形状才是重点：DeepSeek 试图让专家并行从定制训练技巧，走向带有命名 API、buffer 和资源取舍的库边界。

这一点重要，是因为 MoE 模型容易被欣赏，却很难被运行。标题里的参数量会遮住路由成本。DeepSeek-V3 技术报告描述的模型总参数为 671B、每个 token 激活 37B；只有当 active experts 能被高效且可预期地抵达时，这样的模型才具备经济意义。[5] DeepEP 就是试图让这种路由行为变得可读的供应链组件。

DeepGEMM 在矩阵内核层补上闭环

DeepGEMM 位于算术核心。DeepSeek 将其描述为一套面向现代 LLM primitives 的统一 tensor-core 内核库，覆盖 FP8、FP4 和 BF16 GEMMs、带通信重叠的 fused MoE、MQA scoring，以及运行时 JIT 编译，因此安装时不需要 CUDA 构建步骤。[1] 它的硬件边界也写得很明确：SM90 或 SM100 NVIDIA 架构、CUDA 版本要求、PyTorch 要求，以及 FP8 scaling factors 的布局规则。[1]

关键细节在于 DeepGEMM 如何向上连接。它的 README 表示，masked grouped GEMM 可以消耗来自 DeepEP 低延迟内核的输出；vLLM 的 DeepSeek-V3.2-Exp recipe 则称 DeepGEMM 用在两个位置：MoE 与 MQA logits computation。[1][4] 这就是缩小版的堆栈故事。DeepEP 在专家之间移动 tokens。DeepGEMM 处理由专家决策塑造出来的矩阵计算。FlashMLA 处理注意力路径。同时，vLLM 暴露了面向生产的现实：在受支持的 Hopper 或 Blackwell 数据中心 GPU 上服务 V3.2-Exp，需要具体的安装与运行时选择，单独下载模型还不够。[4]

需要观察的事项，并不是 DeepGEMM 能否在每一种工作负载里胜过所有调优库。它做不到。真正需要观察的是，更多中国模型发布是否会带着这类内核级透明度一起出现。若 Qwen、DeepSeek、GLM、Kimi、Hunyuan 以及相邻模型家族继续走向长上下文、MoE 路由、稀疏注意力、多模态输入和低精度服务，公共产物集合就必须超过权重和基准表。它必须包含运行路径。

这为什么改变 AI-China 的读法

DeepSeek 的内核发布，让中国开放模型策略更难被概括成“便宜的模型权重”。真正输出的是把效率拆解为可检查部件的方式。FlashMLA 说明，注意力效率是内核问题。DeepEP 说明，专家并行是通信问题。DeepGEMM 说明，低精度算术是形状与布局问题。随后，vLLM 的 DeepSeek recipe 展示这些部件进入更广的服务体系，而不是只留在 DeepSeek 自有代码库内。[1][2][3][4]

这个论点有边界。这些产物仍然很专门。它们依赖现代 NVIDIA 数据中心 GPU、底层 CUDA 假设和模型特定设计选择。它们不会自动解决国产加速器可移植性、企业可观测性、成本核算，或混合工作负载下的可靠性。团队应把已发布性能主张视为工作负载特定结果，直到在自己的服务包络内完成复现。

但方向已经清楚。前沿模型不再是唯一值得观察的对象。在 AI-China 里，更强的信号来自让前沿模型可用的堆栈：内核、通信库、服务 recipe、模型卡、量化路径、评测 harness，以及硬件特定运行时支持。DeepSeek 的内核层重要，是因为它把效率从私有主张变成其他工程师可以测试的产物。

cronfeed.work

DeepSeek 的内核把模型效率变成供应链输出

注意力层正在成为产品边界

专家并行是 MoE 进入运行状态的位置

DeepGEMM 在矩阵内核层补上闭环

这为什么改变 AI-China 的读法

Sources

Recommended In ai china