FlagScale 在中国 AI 技术栈里并不显眼,这也正是它值得观察的原因。模型发布拿走基准测试的注意力,智能体演示拿走屏幕录像的注意力。更难的供应链问题则枯燥得多:当硬件通道发生变化时,一个实验室、供应商或企业,能否把训练、推理、服务化部署和强化学习负载迁移到不同加速器栈上,同时避免每次都重写整项作业。

BAAI 给出的答案是 FlagOS,FlagScale 则是其中面向运行操作的工具包。FlagScale 官方文档把 FlagOS 描述为统一的开源 AI 系统软件栈,目标是连接模型、系统与芯片;FlagScale 则为训练、强化学习和推理提供一套跨多种后端引擎的接口。[5] 也就是说,它的产品主张并非“又做了一个模型”。真正的产品主张是,模型工作要具备足够的可迁移性,才能穿过中国碎片化的算力市场。

截至 2026-05-28T23:01:37Z UTCflagos-ai/FlagScale 的公开 GitHub 仓库显示有 517 个 star、152 个 fork、44 个 open issue,默认分支为 main,许可证为 Apache-2.0,最近一次 push 时间为 2026-05-28T12:17:03Z,最新 release 为 v1.0.0,发布时间是 2026-03-26。[4][7] 这些数字更接近早期基础设施项目,而不是大规模采用项目。更有用的信号来自软件契约的形态:单一 CLI、由 YAML 驱动的作业、Megatron-LM 与 vLLM 等上游引擎,以及承接硬件特定支持的插件通道。[3][5][6][7]

瓶颈已经移到模型下方

中国模型竞赛很容易被误读成 Qwen、DeepSeek、Kimi、ERNIE、Hunyuan、Doubao、MiniMax、GLM 以及更小型专门模型线之间的记分牌竞争。公开表面看起来是一连串上下文窗口、价格、代码成绩、多模态演示和智能体声明。供应链压力却落在更低的位置。一个模型团队即使能在某一套加速器栈上完成训练或服务化部署,仍然要承受采购约束、云端可用性、出口管制替代、本地政府算力池,以及已经放在企业数据中心里的硬件。

这正是 FlagScale 重心值得关注的原因。README 称,v1 线把硬件特定的多芯片支持重构进 TransformerEngine-FLvllm-plugin-FL 等插件仓库,这些插件均建立在 FlagOS 之上。[3] 文档则把这些插件项目描述为对常用上游开源框架的扩展,用来适配多种 AI 芯片。[5] 这是一种务实的架构选择:核心工作流契约保持稳定,芯片特定的波动被放进插件通道。

这里的重点不是 FlagScale 能神奇地抹平硬件差异。它做不到。编译器成熟度、集合通信、kernel 覆盖、内存行为、算子可用性、量化支持和 profiling 工具,仍然会因设备而异。更窄也更有用的判断是:团队可以把工作表达为一项 FlagScale task,再让后端与插件选择承担更多迁移负担。

YAML 是控制平面

FlagScale 最能说明问题的部分很平常。用户指南称,每项 task 由两个 YAML 文件驱动:一个实验级文件,一个任务级文件。[6] 实验级配置写明运行上下文:输出目录、后端引擎、任务类型、runner 设置、环境变量,以及要加载的任务级文件。随后,任务级文件把模型、数据集与运行时参数映射到所选后端的参数上。[6]

放进中国 AI 算力环境里,这件平常的事才显出分量。如果一个实验室需要在不同服务化部署目标和训练目标上测试 Qwen、DeepSeek、LLaVA-OneVision、RWKV、Aquila 或机器人模型,问题就变成:有多少操作知识可以沉淀在可重复的配置里,而不是留在本地传承的移植脚本中。FlagScale 的支持列表包括 DeepSeek-V3、Qwen2/2.5/3、Qwen2.5-VL、QwQ、LLaMA、LLaVA、Mixtral、RWKV 与 Aquila 的训练示例,也包括 DeepSeek-R1、DeepSeek-V3、Qwen 变体、Grok2 与 Kimi-K2 的服务化示例。[3]

这些名字需要谨慎阅读。支持表不等同于基准测试保证。它不能证明每一种芯片与后端组合下都有稳定吞吐、完整功能对等或生产可靠性。它真正显示的是预期中的抽象边界。FlagScale 希望模型家族、后端引擎与任务类型成为显式配置表面,而不是埋在本地启动脚本里的隐藏假设。[3][6]

这就是它应当被放进 AI-China 供应链观察的工程原因。中国市场并不缺模型。它缺少的是枯燥、可重复、面向多供应商的执行表面,让模型工作能在芯片与云之间移动,而每次集成都不用从零开始。

BAAI 试图建立的是机构性体系,而不是单个软件包

FlagScale 的重要性还来自它位于 BAAI 更大的封装策略之内。BAAI 的 system 页面把 FlagOpen 呈现为一个面向大模型的开源全栈技术底座,覆盖多框架与异构芯片。同一页面列出语言、视觉、多模态、嵌入、具身、数据、算法、评测和系统软件组件;其中把 FlagScale 命名为 FlagOS 内部的高效并行训练与推理框架。[2]

该页面上的数字让这种机构性雄心变得清晰。BAAI 报告称,开源模型总下载量为 640 million,FlagOpen 开源项目代码总下载量为 1,400,000;FlagOS 部分则列出 5,600+ 张 AI 加速卡、50+ 人团队、超过 99.6% 的 SLA,以及对 13 种 AI 芯片的支持。[2] 这些是机构自行报告的数字,因此不能当作经过独立审计的市场份额。它们仍然有价值,因为它们说明 BAAI 希望外界如何评判 FlagOpen:作为横跨模型、芯片、评测、数据和发布的操作层,而不只是单一 repo。

这套更大的策略早于 2026 年 FlagScale 发布。关于 BAAI 2024 活动的报道曾描述,FlagOpen 试图成为大模型时代的基础设施,而不只是模型目录。[8] 这个表述带有愿景性质,但堆栈逻辑与当前文档保持一致:FlagData 负责数据处理,FlagEval 负责评测,FlagOS 负责系统软件,FlagScale 负责训练与推理,FlagCX 负责通信,FlagRelease 负责自动化模型发布。[2][5]

风险在于机构性扩张。一个全栈底座可以成为连贯平台,也可以变成横跨过多项目的标签。实际检验标准在于这些组件是否减少真实团队的迁移工作。如果 FlagScale 配置、FlagOS 插件、通信库和评测工具保持足够兼容,使工程团队可以从一条模型与芯片通道迁移到另一条通道,这把大伞就有实质力量。如果每条通道仍然需要定制化 debugging,技术栈就会滑向品牌包装。

v1.0.0 Release 显示了方向

2026 年 3 月的 v1.0.0 release 有参考价值,因为它直接写出了迁移议程。release notes 称,这次重大更新引入统一的 FlagScale CLI 作为单一入口,新增了覆盖 NVIDIA GPU、Ascend 与 MUSA 的统一多芯片训练支持,以 VeRL-FL 替换第三方 verl,将模型支持扩展到 Qwen3-VL、Qwen2.5-VL、GR00T N1.5 与 DeepSeek Engram,并通过 Megatron-LM-FL 集成测试和 CLI 校验工作流改进 CI/CD 覆盖。[7]

这组更新并不随机。CLI 统一减少操作差异。多芯片训练支持对应国内硬件多元化。VeRL-FL 把强化学习工作流移入同一套适配生态。视觉语言模型与机器人模型支持,则把覆盖范围推进到纯文本 LLM 之外。围绕集成测试建设 CI/CD,说明维护者知道,可迁移性不能停留在 README 声明上,它需要被反复检查。[7]

这次 release 也暴露出边界。如果一个团队已经标准化在单一云、单一加速器、单一模型家族和一套成熟服务化栈上,FlagScale 在带来价值之前会先增加抽象层开销。它的使用场景在硬件多样性无法回避的地方更强:共享集群的研究实验室、混合卡池的本地 AI 园区、希望暴露多条国内和国际通道的云厂商,或需要保留选择空间的企业,因为采购与政策约束变化速度可以快过模型路线图。

观察什么

第一项观察是插件成熟度。把硬件特定支持从核心代码库中解耦是合理选择,但前提是插件项目能跟上上游引擎和模型家族的节奏。[3][5] 需要观察 vLLM 或 Megatron 变化与对应 FlagOS 适配插件支持之间的滞后。

第二项观察是配置稳定性。YAML 驱动的 task 只有在示例和 schema 足够稳定、足以让团队进行版本管理、评审和复用时才有价值。[6] 如果每个模型家族都要求特殊编辑,控制平面的承诺就会削弱。

第三项观察是 BAAI 相关展示以外的采用情况。BAAI 官方数字显示了雄心和基础设施规模,GitHub 指标则显示早期公共开发者足迹。[2][4] 更强的信号会是外部实验室或企业把 FlagScale 当成日常启动表面,而不是演示依赖。

证伪条件很直接:如果多芯片支持主要仍是一组本地补丁,如果生产团队仍然为每一种加速器选择单独手工调优的技术栈,那么 FlagScale 就没有变成运行时契约。它只是把一个难题包了一层。

眼下,这个项目值得跟踪,因为它捕捉到了中国 AI 约束的真实形状。前沿问题不只是谁拥有本月最好的模型,还包括谁能让模型工作穿过碎片化算力、变化中的采购条件和大量部分兼容的软件栈继续存在。FlagScale 的押注是,可迁移性能够成为一项经过配置的系统属性,而不是一次英雄式移植工程。

来源

  1. Wikimedia Commons,"File:中关村广场夜景.jpg" - Charlie fong 于 2009 年 1 月拍摄的中关村公有领域照片,本文用作文章图像。
  2. 北京智源人工智能研究院(Beijing Academy of Artificial Intelligence),"BAAI Innovation Center: System" - FlagOpen、FlagOS、FlagEval、FlagData 与 FlagScale 的官方系统概览,以及机构自行报告的规模数字。
  3. GitHub,flagos-ai/FlagScale README - 仓库概览、FlagScale 支持列表、插件拆分、上游映射与许可证。
  4. GitHub API,flagos-ai/FlagScale repository snapshot - 文章创建时的 star、fork、open issue、许可证、默认分支、更新时间与最近 push 时间戳。
  5. FlagScale Documentation,"FlagScale Overview" - 对 FlagOS 内部 FlagScale、多芯片插件架构与上游引擎映射的官方描述。
  6. FlagScale Documentation,"User Guide" - YAML 配置模型、task 类型、后端选择,以及 train/inference/serve/RL 工作流示例。
  7. GitHub Releases,flagos-ai/FlagScale v1.0.0 - 2026 年 3 月 26 日 release notes,涉及统一 CLI、多芯片训练支持、模型支持扩展与 CI/CD 变化。
  8. Synced,"AI Pioneers Gather at BAAI 2024" - 对 BAAI FlagOpen 2.0 定位与生态雄心的外部报道。