DVC 的价值在于让 Git 保留脉络，让存储承担重量

封面使用 Abigor 在 2011 年拍摄的机架服务器照片。它适合这篇 DVC 采纳说明，因为 DVC 最有用的位置，正是在代码历史、数据元数据与远端存储被分开管理、又彼此连接的运营表面之间。[6]

DVC 值得采纳的场景，问题并非“我们需要用 Git 管大文件”，而是“数据决策需要贴着代码决策存在，同时不能把数据 payload 放进 Git”。这个区别会直接决定 DVC 用起来是清爽还是烦人。用得合适时，它给数据科学仓库提供一份小契约：Git 追踪代码、dvc.yaml、.dvc 指针文件、指标和可审阅变更；DVC 通过 cache 与 remote storage 搬运数据和模型产物；人则在同一条分支历史里审阅因果脉络。[1]

2026 年的语境让这条边界更清楚。2025 年 11 月被收购之后，DVC 现在处于 lakeFS 的托管之下，项目被定位为一个独立开源工具，服务于规模较小、本地化、以 Git 为中心的数据科学工作流；lakeFS 则承接同一类别中数据湖与企业基础设施一端的需求。[4] 这是一条有用的信号，不只是营销脚注。它说明，正确的 DVC 部署仍然应当保持仓库形状。若组织要的是 PB 级可分支对象存储、集中式数据治理，或表级生产控制，DVC 就落在错误层级。若团队要让模型仓库可复现，又不想把每一次数据集修订变成 zip 文件仪式，DVC 仍然处在自己的轨道上。

迁移目标

最好的 DVC 迁移，从一个已经具备 Git 习惯的现有仓库开始。团队拥有 Python 或 R 代码、可以转换成脚本的 notebook、数据准备步骤、模型训练、评估输出，以及一组很普通的共同问题：用了哪份原始数据，哪些参数发生变化，哪个模型文件属于这个 commit，另一位开发者怎样重建工作区。

DVC 的 quick-start 流程把运行模型暴露得很直接。项目通过 dvc init 在 Git 仓库内初始化；数据集通过 dvc add 被追踪；数据 payload 被 Git 忽略，同时一个很小的 .dvc 元数据文件被提交；随后 payload 可以推送到已配置的 remote，比如 S3、SSH、Azure Blob Storage、Google Drive、HDFS、WebDAV 或本地存储。[1] 之后，队友可以通过 git clone、git pull 和 dvc pull 重建 Git 有意没有存储的文件。[1]

这就是有用的契约：Git 保存主张，DVC 取回证据。这里的可复现性来自一项有纪律的拆分：小型元数据保持可审阅，重型产物则采用内容寻址方式存放。

哪些东西进入 DVC

从三个表面开始，别从整个 ML 平台开始。

第一，只有当原始数据集或预处理数据集的版本会影响模型结果时，才把它们放进 DVC。一次性临时 CSV 通常不值得引入新流程。训练集、标注导出、特征快照、tokenizer 产物，或 baseline 模型 checkpoint，则值得。审阅者应当能看见 data/train.dvc 发生变化，并追问原因，即使 40 GB 的 payload 存在别处。

第二，把可重复的数据转换移入 dvc.yaml stages。DVC 在这里不再只是指针系统，而成为 pipeline 记录。一个 stage 应当清楚写出 dependencies、outputs、parameters 和 commands，让 dvc repro 真正有机会重建从原始输入到模型输出的路径。若 command 是带隐藏状态的 notebook，迁移尚未完成；DVC 不能只靠把不透明工作流包进 YAML 文件，就让它变得可审计。

第三，在有助于比较模型决策的地方追踪 metrics 和 experiment records。DVC experiments 会关联回一个 Git HEAD baseline，但它们可以留在主项目树的普通分支和 commit 之外。[2] 这对 ML 工作很重要，因为大量参数扫描是有用证据，却不适合成为长期 Git 历史。迁移目标在于保留足够的实验上下文，让被选中的模型可以被解释和复现，避免后来再做考古。

失败模式

DVC 最常失败在团队把它当作平台替代品时。它不会消除命名约定、存储权限、quota 规划、CI 政策或数据生命周期决策的需求。组织混乱的 bucket 在 dvc remote add 之后仍然混乱。依赖可变外部表的 pipeline 在 dvc repro 之后仍然脆弱。充满 notebook、手工下载和隐式凭据的仓库，在 dvc init 之后仍然难以复现。

第二种失败模式是 Git 混乱。DataLad handbook 的比较对学习曲线说得很直白：DVC workflows 高度依赖 Git 实践，用户需要理解 branches、staging、commits、checkout 行为、.gitignore，以及 DVC 引入的另一套命令词汇。[5] 这条风险指向采纳位置：DVC 应当进入已经具备 Git literacy 的地方，或者进入愿意明确教学这套组合 workflow 的团队。

第三种失败模式是规模错配。DVC 自己的 getting-started guide 现在把界线画得很明白：它面向本地数据科学和 ML 项目中基于 Git 的数据与模型版本管理；围绕 data lakes、object storage，或经常同步极大数量文件的工作流，应考虑用 lakeFS 承担基础设施规模的数据版本控制。[1] 平台团队应当认真对待这句话。DVC 可以靠近模型仓库存在，但不该被推去扮演 data warehouse、lakehouse catalog 或企业 access-control plane。

采纳路径

用一个包含单一模型和一条可复现路径的试点仓库开始。目标集中在一件事上：证明一位新开发者能从干净 clone 重建一次有意义的运行，而不是迁移每个数据集。定义一个 DVC remote，记录 credential setup，把 dvc pull 纳入 onboarding。增加一个 CI job，检查 pipeline graph 并运行一条小型 smoke path，即使完整训练对每个 pull request 来说成本过高。

第一阶段的分支政策保持简单。代码变更、dvc.yaml、parameter files、.dvc files、metrics summaries 和 plots 进入 review。原始 payload 不进入。若数据指针发生变化，pull request 应说明来源、预期影响，以及下游模型 metrics 是否移动。若模型产物在没有数据或代码解释的情况下变化，就把它视作流程异味。

cache 与 remote 卫生也要有明确安排。DVC 可以 garbage-collect 未使用对象、共享 caches，并按需取回数据，但这些机制需要负责人。必须有人决定旧 experiments 何时可以丢弃，remote object 何时需要为审计保留，以及 shared runners 上是否允许本地 caches。缺少这套政策时，DVC 只是把杂物从 Git history 移进 storage accounts。

边界测试

对于已经以仓库方式思考、需要在代码、数据、模型和 metrics 之间建立可复现桥梁的数据科学家或 ML 工程师团队，DVC 很合适。它在 review culture 重要的地方尤其有用：创建模型变更分支，更新数据指针，比较 metrics，并让讨论贴近代码。GitHub 项目描述仍然抓住了这个形状：DVC 是用于可复现 ML projects 的 command-line tool 和 VS Code extension，覆盖数据与模型版本管理，也覆盖实验工作。[3]

当数据主要作为共享表来管理，当平台在仓库级可复现性之前需要多团队治理，或当 object storage 已经具备自己的分支与隔离层时，DVC 的适配度会降低。在这些情况下，DVC 仍可在边缘位置发挥作用，但 truth source 更适合放在数据基础设施栈的更低层。

实用的采纳规则很简单：若团队希望每一个有意义的模型结果都能由一个 Git commit 加一个 DVC remote 解释清楚，DVC 就在范围内。若团队想要一个全局 data-control plane，DVC 指向边界，却不是边界本身。

cronfeed.work