把时间放在 2026-04-22 UTC,围绕开源模型的 AI-China 问题,核心已经从发布当天哪一个 Qwen、DeepSeek、GLM 或 Baichuan checkpoint 更亮眼,推进到更硬的供应链层面:这些 checkpoint 怎样进入团队自己的数据、硬件与评估习惯,形成一条可重复的适配路径。[1][2][3]

LLaMA-Factory 正好处在这一层。它的公开仓库把自己呈现为一套可微调 100+ LLMs and VLMs 的框架,覆盖 Qwen3、Qwen3-VL、DeepSeek、GLM、Baichuan、LLaVA、Mistral 等模型家族。[1][3] 配套的 ACL system-demo 论文则把同一点写得更正式:高效微调很有价值,可是在不同模型上实现这些方法需要真实工程成本,因此 LLaMA-Factory 把这件事包装成统一框架,并提供名为 LlamaBoard 的 Web UI。[2]

这是一条栈信号,也是一条开源工具之外的基础设施信号。中国模型层迭代太快,企业团队很难为每一次发布单独维护监督微调、LoRA、导出与 serving harness。一层能够吸收 model-template 变化、训练方法变化与硬件打包变化的工作台,会逐渐形成基础设施位置。

图片说明:题图来自 Wikimedia Commons 上一张 2015 年真实黑客松照片。它用于贴近本文讨论的开源模型操作表面:笔记本电脑、共享配方、试跑与实际适配工作,与发布会舞台图像保持距离。[5]

真正的产品是适配循环

仓库的功能列表很说明问题,因为它没有停在某一种训练配方上。它把工作台分成模型广度、训练方法、资源伸缩、加速技巧、实验监控,以及通过 OpenAI-style API、Gradio UI、CLI、vLLM worker 或 SGLang worker 进入更快推理路径等几层。[1]

这种广度对中国开源模型采用很关键。一个团队这一周评估 Qwen3,下一周评估 DeepSeek-R1-distilled Qwen 变体,再之后切到 GLM 或 Baichuan 分支,它需要一块相对稳定的表面,让数据集格式、chat template、LoRA target modules、评估命令、导出路径与服务路径在模型家族变化时仍然可识别。[1][3]

源材料已经把这条工作流写得很明白。LLaMA-Factory 表示它集成 pre-training、多模态监督微调、reward modeling、PPO、DPO、KTO、ORPO、freeze tuning、LoRA、QLoRA 等方法;论文则说明,这套框架希望通过 LlamaBoard 让用户在少写代码的情况下定制微调。[1][2] 放在实践里,这会把微调从研究脚本问题,推进到一套操作循环:选择模型,接入数据,运行高效适配方法,观察指标,导出产物,再把它服务出来供检查或下游使用。

风险的移动位置在这里很重要。薄弱数据仍然薄弱,小 checkpoint 也仍然受模型规模与训练来源约束。LLaMA-Factory 降低的是在多种候选模型之间诚实运行同类适配实验的摩擦。对企业用户而言,这常常决定一次演示能否转成受控的模型选择流程。

Day-N 支持就是发布节奏功能

仓库里的 Day-N support 表是一条有价值的市场信号。它列出 Qwen3、Qwen2.5-VL、Gemma 3、GLM-4.1V、InternLM 3 与 MiniCPM-o-2.6 的 Day 0 支持,也列出 Llama 3、GLM-4、Mistral Small、PaliGemma2 与 Llama 4 的 Day 1 支持。[1]

从工程基础设施角度看,这张表说明项目试图跟上模型发布周期,并持续扩展静态目录之外的运行适配。变更日志进一步加强了这一点:仓库记录了 2025-01-31 支持 DeepSeek-R1 与 Qwen2.5-VL,2025-02-05 支持 Qwen2-Audio,2025-03-31 支持 Qwen2.5-Omni,2025-04-14 支持 Kimi-VL 与 GLM-Z1,2025-04-16 支持 InternVL3,2025-04-28 支持 Qwen3,2025-10-26 支持 Megatron-core backend。[1]

这些日期的意义落在节奏形态上。中国开源模型市场奖励快速试用。一个新 checkpoint 对许多团队来说,只有在周边工作台已经知道 tokenizer、chat template、target modules、量化路径与导出约束之后,才真正进入可测试状态。LLaMA-Factory 的价值,有一部分正来自它追踪这层周边工作,让模型名背后的运行条件一起进入视野。

LLaMA Factory Online 的镜像列表文档,从打包角度呈现同一种形态。它的模型目录包括 Baichuan、ChatGLM、Chinese-LLaMA、Chinese-Alpaca、CodeGeeX、DeepSeek 等中文或中国相关模型家族;版本说明则把 LLaMA-Factory 镜像与 Transformers、PyTorch、CUDA、vLLM、Hugging Face Hub 的具体组合绑在一起。[3] 这种 compatibility matrix,正是单谈 model card 时容易消失的部分。

硬件打包也是供应链的一部分

仓库里的硬件表足够直白,也因此有用。它估算 7B 模型的 32-bit 全量微调大约需要 120 GB 显存,而 4-bit QLoRA 或 QOFT 可以把同一 7B 等级降到约 6 GB;对 70B 模型,表中给出的 32-bit 全量微调约为 1,200 GB,4-bit QLoRA 或 QOFT 则约为 48 GB。[1]

这些数字需要放在具体数据集与序列长度里理解。它们仍然很有用,因为它们把采用边界具体化了。对很多团队来说,开源模型适配开始于训练方法能否塞进自己能预约到的硬件里。LoRA 与 QLoRA 支持因此位于核心路径上,连接“已经下载模型”与“本周可以运行一次受控适配实验”。

部署打包也同样关键。仓库说明了一个基于 Ubuntu 22.04、CUDA 12.4、Python 3.11、PyTorch 2.6.0 与 Flash-attn 2.7.4 的 Docker image,并且单独给出 Ascend NPU 用户说明,包括 CANN Toolkit、Kernels 要求与预构建 NPU 镜像标签。[1] AMD 的 ROCm developer tutorial 也独立把 LLaMA-Factory 当成 AMD Instinct 硬件上的实用微调路径,测试环境围绕 Ubuntu 22.04、ROCm 6.3、Docker 与 MI300X GPU 展开。[4]

这层展开有战略意义。微调工作台如果能跨过 CUDA、ROCm 与 Ascend 这样的硬件通道,它的价值就会上升。买方能够更清楚地把模型选择与硬件选择拆开,至少能看见这种拆分在哪里断裂。

这会怎样改变 AI-China builders 的判断

对跟踪中国 AI 栈的 builders 来说,LLaMA-Factory 改变开源模型发布解读的方式,主要有三点。

第一,它让发布后的适配进入默认叙事。一个 checkpoint 的判断依据,已经从论文、model card 或榜单,延伸到它能否进入现有工作台,并沿着既有配方、数据集与导出路径运行。[1][2]

第二,它让 template 与 method maintenance 变成共享的上游工作。当 Qwen、DeepSeek、GLM 或 Baichuan 支持进入工作台,单个团队继承到的起点,会比每家都从头写 chat-template 与 LoRA plumbing 稳定得多。[1][3]

第三,它让硬件可选性更可见。实际选择已经从本地部署与 API 的二分,推进到哪一条适配路径能跑在团队掌握的硬件通道上:CUDA server、ROCm box、Ascend NPU environment,或托管云 notebook。[1][4]

接下来值得看的,是更多中国模型发布是否会把工作台兼容性纳入 launch checklist。LLaMA-Factory 只是微调框架生态中的一个关键节点。一个新模型如果能快速进入 LLaMA-Factory、ModelScope、vLLM、SGLang 与云 notebook recipe,那它从发布公告到真实企业实验之间的距离就会短很多。

这才是更窄也更耐看的信号:LLaMA-Factory 处在模型竞赛之外,却参与决定这场竞赛能否被测试、适配与重复。

来源

  1. hiyouga/LLaMA-Factory GitHub repository,README 与 changelog(模型支持、训练方法、资源表、Docker、Ascend NPU 说明与 OpenAI-style serving 路径)。
  2. Yaowei Zheng 等,"LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models",arXiv:2403.13372 / ACL 2024 System Demonstration Track。
  3. LLaMA Factory Online documentation,《查看模型镜像列表》(镜像版本矩阵,以及包含 Baichuan、ChatGLM、DeepSeek、Chinese-LLaMA 等家族的模型目录)。
  4. AMD ROCm AI Developer Hub,"Fine-tune Llama-3.1 8B with Llama-Factory"(ROCm 硬件设置与独立微调教程)。
  5. Wikimedia Commons,"File:Hackathon NYC 092 (17377217072).jpg"(本文题图所用 TechCrunch 2015 年黑客松照片)。