截至 2026-06-11 UTC,摩尔线程释放出的有用信号,超出中国又多了一家国产 GPU 厂商这一层。更锋利的信号在于,这家公司正试图让 MUSA 表现为应用迁移表面:SDK 包、PyTorch 后端垫片、vLLM 硬件插件、容器运行时设置,以及第三方推理指南,都围绕同一个硬件叙事陆续出现。[1][2][3][4][5]
这一点重要,因为中国 AI 芯片的瓶颈超出芯片供给本身。问题还在于,模型开发者能否迁移真实工作负载,同时保留从 CUDA 继承下来的大量假设。摩尔线程自己的公司时间线称,其在 2022 年发布 MUSA,2023 年发布 MUSA Toolkit 1.0 与 MUSIFY,推出 MTT S4000 大模型 AI 卡和 KUAE 集群,并在 2024 年把 KUAE 从数千卡扩展到数万卡。[1] 这些说法需要带着常规厂商审慎态度来读,但它们定义了这家公司的野心:摩尔线程想卖出的是一条计算路径,超出一块板卡本身。
因此,现场信号非常具体。MUSA 正在成为国产运行时可移植性的测试。如果开发者能够保留 PyTorch 使用习惯,通过熟悉的推理框架服务模型,并用容器部署 worker,摩尔线程就会超出采购对冲的角色。如果每一步都需要专门修补,它仍会停留在等待软件生态兑现的硬件故事里。
封面图也遵循同一条证据规则:它是一张真实的 2025 WAIC 摩尔线程标识照片,脱离图表、渲染图或生成插图。[7]
SDK 页面比口号更重要
摩尔线程开发者页面把 MUSA SDK 描述为一套 GPU 并行计算 SDK 组合,包含运行时、编译器、GPU 加速库、迁移与优化工具、神经网络加速库、通信库以及相关开发工具。[2] 这是 CUDA 替代方案应有的形态,但细节揭示出真正的约束:支持范围会按板卡代际、CPU 平台、操作系统、包格式和 SDK 版本切分。
当前下载列表包含面向 MTT S5000 与 MTT S4000 的 MUSA SDK v5.1.0 包,组合项提到 Intel、AMD 与海光 CPU;Ubuntu、Alinux、openEuler、TencentOS、VesselOS 和麒麟式环境;同时覆盖 RPM 与 DEB 打包。[2] 更早的条目显示了社区构建版本、MTT S80/S3000/X300 目标,以及面向若干指定组合的 DeepSeek R1 蒸馏模型推理说明。[2] 这张矩阵少有光泽,却正是实际工作所在。
对于企业团队,国产加速器只有在兼容矩阵清楚写明时才具备部署条件。它必须说明哪个驱动、哪个 CPU 主机、哪个 Linux 发行版、哪张卡、哪个容器运行时,以及哪条模型服务路径已经被实际跑过。MUSA 页面没有证明它已经广泛达到 CUDA 等价。它显示的是,厂商正在发布真实采用所需要的那类乏味集成表面。
PyTorch 信号是一个后端名称
torch_musa 仓库是最清晰的开发者侧线索。它的 README 把 torch_musa 呈现为一个基于 PyTorch 的 Python 扩展,并称用户可以通过把后端字符串从 cpu 或 cuda 切换到 musa 来完成迁移。[3] 这是一个很强的设计主张,因为它把迁移定位在熟悉的层面:张量、设备、kernel 和模型代码,同时避开一套全新的应用框架。
这个主张有边界。后端名称切换不能保证每个 CUDA 扩展、自定义算子、混合精度路径或分布式训练模式都原样运行。它确实描述了正确目标。AI 团队积累了太多 PyTorch 代码;如果使用国产 GPU 的第一步就是全量重写,这类硬件就很难被视为有用。值得观察的信号在于,生态中有多少部分能够继续保持普通 PyTorch 形态,同时由 MUSA 在下层处理设备相关工作。
这也是中国国产 GPU 竞争开始脱离芯片规格竞赛、转向软件维护竞赛的地方。纸面上看起来合格的硬件,仍会因为模型代码破裂、依赖被钉死在不受支持的版本,或算子退回慢路径而让买家失望。torch_musa 层是摩尔线程把第一道迁移问题具体化的尝试:模型能否在更换设备目标后,仍作为 PyTorch 运行?[3]
vLLM 支持把故事从 notebook 推向服务
vllm-musa 仓库把信号推入生产推理。它描述了一个面向摩尔线程 MUSA GPU 的 vLLM 硬件插件,遵循 vLLM 的硬件可插拔架构,并列出组件,包括用于 CUDA 到 MUSA 兼容的 torchada、用于设备管理的 mthreads-ml-py、用于大模型推理加速的 MATE,以及用于原生 MUSA 设备支持的 torch_musa。[4]
这个组合重要,是因为 vLLM 是许多开放模型实验转化为托管服务的位置。notebook 后端对迁移有用。服务插件测试的则是批处理、内存管理、worker 生命周期、自定义操作和模型 API 行为能否进入开发者已经熟悉的框架。该仓库的受支持版本表很窄,列出 vLLM v0.22.0、PyTorch 2.7.1,并且只支持 V1 engine。[4] 范围窄属于有用边界。它提醒团队,不能把“插件存在”误读成普遍兼容。
容器层讲述的是同一个故事。GPUStack 的摩尔线程指南称,它支持在 Linux x86_64、Ubuntu 20.04 或 22.04 条件下,对 MTT S80、S3000 和 S4000 设备进行推理,随后给出 Docker 设置、MUSA 驱动、MT 容器工具包以及 gpustack/gpustack:main-musa 容器路径。[5] 这正是国产加速器需要的操作桥梁:模型能跑只是起点,worker 还要能够带着已知运行时假设加入推理系统。
DeepSeek 给这套栈提供了工作负载形状的测试
DeepSeek 在 2025 年获得的可见度,为中国硬件厂商提供了一个方便的验证场,摩尔线程也顺势推进。TechNode 报道称,摩尔线程在其国产 GPU 上部署了 DeepSeek-R1-Distill-Qwen-7B 推理,路径包含基于 Ollama 的开源方案与自有高性能推理引擎;公司同时宣称 CUDA 兼容,以及自定义算子和内存管理改进。[6]
重要之处不在新闻稿式性能主张。重要之处在工作负载形状。一个蒸馏推理模型足够小,可以成为实际演示;同时又足够熟悉,让开发者理解预期服务循环:加载权重、管理内存、流式输出 token、保持延迟稳定,并避开框架特定死路。如果 MUSA 能在 Qwen、DeepSeek 和其他开放模型上反复吸收这一类工作负载,它就会成为可信的国产推理路径。如果它只在精心布置的演示里成立,市场会看见。
最贴近现实的结论是混合的。摩尔线程已经展示出可移植性栈的可见部件:SDK 发布、PyTorch 后端工作、vLLM 集成、容器指导,以及面向特定模型的推理示例。[2][3][4][5][6] 这些部件尚未证明生态成熟。它们已经显示出成熟度将在哪里被衡量。
继续观察什么
第一,观察版本滞后。如果 torch_musa、vLLM-MUSA、MUSA SDK 和容器工具链长期落后于主流 PyTorch 与服务版本,团队将持续在当前模型代码与国产硬件支持之间做选择。[2][3][4]
第二,观察算子覆盖。成功条件落在 attention kernel、量化路径、自定义 op、多模态预处理器和分布式服务组件能否在模型变化时继续工作。
第三,观察有多少第三方基础设施把 MUSA 当作普通后端。GPUStack 支持是一个早期信号,因为它把摩尔线程设备转化为可调度 worker,区别于需要手工管理的机器。[5] 更多这类集成,会比又一个宽泛的“CUDA 替代”标题更有意义。
AI-China 视角下的判断很直接。摩尔线程的竞争力不会只由峰值芯片主张或 IPO 热度决定。它将取决于 MUSA 能否变得足够普通,让 AI 工程师停止专门想着它。可移植性就是产品。
来源
- 摩尔线程,“About Us”(公司时间线,MUSA 发布、MUSA Toolkit、MTT S4000、KUAE 集群与产品范围)。
- 摩尔线程开发者中心,“MUSA SDK”(SDK 组件、包版本、支持的 MTT 卡、CPU/OS 组合,以及 DeepSeek R1 蒸馏模型说明)。
- MooreThreads,
torch_musaGitHub 仓库 README(PyTorch 后端、迁移主张、后端字符串行为与许可证说明)。 - MooreThreads,
vllm-musaGitHub 仓库 README(vLLM 硬件插件、组件栈、受支持 vLLM/PyTorch 版本与环境变量)。 - GPUStack,“Running Inference with Moore Threads GPUs”(支持设备、Ubuntu/x86_64 假设、Docker/运行时设置,以及 GPUStack worker 容器路径)。
- TechNode,“Moore Threads deploys DeepSeek distilled model for high-performance AI inference on domestic GPUs”(2025 年 2 月 6 日;DeepSeek-R1-Distill-Qwen-7B 部署报道与双引擎框架)。
- Wikimedia Commons,“Front of server racks at NERSC.jpg”——Derrick Coetzee 于 2011 年拍摄的真实数据中心机架照片,本文图像来源。