截至 2026-05-27 UTC,理解 Data-Juicer 的有效方式,并不是把它看成又一个名字轻快的预处理库。更值得关注的 AI 中国信号在于,阿里巴巴通义实验室与合作者正在尝试把 数据配方 做成基础模型供应链中的一等工件。在一个 Qwen、DeepSeek、ERNIE、GLM、Kimi、Hunyuan、MiniCPM 以及其他路线都能快速发布模型权重或 API 端点的市场里,更安静的瓶颈已经前移到上游:哪些数据被收集、清洗、过滤、混合、标注、去重、追踪,并送入模型工作流。[1][2]
这个上游层面通常在模型公告中描述不足。论文会写语料规模,模型卡会提到过滤,基准表格会暗示训练数据质量已经改善。真正的数据整理路径却常常消失在内部脚本里。Data-Juicer 的重要性正在这里显现:它把这条路径变成可复现的算子链。项目 README 将其定位为基础模型时代的数据操作系统,包含以配方为先的 YAML 流水线、超过 200 个算子,工作流覆盖文本、图像、音频、视频、多模态数据、预训练、微调、RL、RAG、智能体轨迹和分析。[1]
图片语境:封面图是 2022 年 NOIRLab 服务器机房的真实照片,有别于生成式 AI 插画或抽象示意图。它在这里作为基础设施语境使用。Data-Juicer 的价值不来自视觉奇观,而在于机房式纪律:原始数据在成为训练或评估主张之前,需要经过可重复的处理流程。[6]
配方是战略对象
Data-Juicer 原始论文对核心对象给出了清楚定义:数据配方是来自不同来源的数据混合,用于训练 LLM,并直接影响模型性能。[2] 这句话听起来显而易见,直到团队真正尝试把它落到操作层。一个现代模型团队手里会同时有网页文本、代码、OCR 输出、数学材料、合成指令、对话日志、工具轨迹、图像字幕、视频片段、领域文档和评估坏例。每一种来源都有自己的噪声形态。某一类来源需要语言过滤,另一类需要去重,另一类需要敏感数据移除,另一类需要修复字幕,另一类则需要选择式筛取而不是清洗。
Data-Juicer 的战略动作,是把这些选择作为流水线处理,而不放在脚注里。2023 年论文描述了超过 50 个内置算子,并强调组合、可视化、自动评估、训练集成和分布式计算支持。[2] 当前公开仓库显示,系统范围已经大幅拓宽:超过 200 个算子、配方共享、智能体轨迹质量工作、面向 RAG 的抽取与分块,以及与 Ray、ModelScope、LLaMA-Factory、EvalScope、阿里巴巴 PAI、Hugging Face 和其他工具的生态连接。[1]
这次扩展解释了为什么它属于栈与供应链观察。竞争对象并不只是一款“更好的模型”。竞争对象还包括一条路径:它把原始且异构的数据转化为模型的运行饮食。如果团队能够给配方做版本管理、重新运行、相互比较、检查变动样本,并把同一流程从笔记本电脑扩展到集群,数据整理就会从手工粘合代码转向基础设施形态。[1][3][4]
Data-Juicer 2.0 从 LLM 文本清洗走向多模态云端处理
2.0 论文展示了更大的目标。它把 Data-Juicer 2.0 描述为云规模自适应数据处理系统,面向文本、图像、视频和音频提供 100+ 个算子,并从清洗扩展到分析、合成、标注和后训练支持。[3] 论文中的重要主张并不限于算子数量。它指出,基础模型数据处理已经变得足够多模态,也足够依赖运行时条件,传统数据框架在缺少模型感知抽象时难以贴合这一任务。[3]
这对 AI 中国很重要,因为中国模型竞争已经越过纯文本阶段。阿里巴巴自身的模型生态覆盖语言、代码、图像、音频、视频和智能体表面。百度、腾讯、字节跳动、快手、MiniMax、上海人工智能实验室和智谱也都在推进多模态与工作流产品。在这种环境中,数据集已经不再是一个文本文件夹。它是一组记录,内部包含媒体字节、字幕、版式、轮次、工具调用、排序、拒答标签、OCR 片段、时间信息和面向任务的质量信号。
Data-Juicer 近期发布说明让这种转向变得具体。当前 README 列出 2026 年更新,包括 LaTeX 算子、压缩数据集格式、压缩 JSON 的 Ray 支持、智能体架构重构、分区 Ray 运行、算子级隔离环境、视频字节 I/O、具身 AI 视频算子、Ray 与 vLLM 流水线、S3 I/O、追踪,以及多模态和视频算子。[1] 连起来看,这些项目指向同一件事:数据层正在被拉近到模型开发、智能体评估、文档处理和视频理解,而不是停留在通用 ETL 车道里。
扩展能力是产品的一部分,不是部署细节
分布式处理文档尤其能说明问题,因为它把讨论从本地演示推向了规模化场景。Data-Juicer 通过 Ray 和阿里巴巴 PAI 支持分布式处理,文档称大多数独立算子都可以在 Ray 分布式模式下运行。文档还描述了面向特定引擎的工作,例如文件与 worker 均衡,以及针对 JSON 和 Apache Arrow 的流式 I/O 补丁。[4]
这些规模锚点已经大到足以改变工具解读方式。文档引用了在 25 到 100 个阿里云节点 上进行的实验:约 2 小时 内用 6,400 个 CPU 核心 处理 700 亿条样本,0.45 小时 内用 3,200 个 CPU 核心 处理 70 亿条样本,以及在 8 个节点、1,280 个 CPU 核心 上用约 3 小时 完成 TB 级 MinHash-LSH 去重。[4] 这些数字来自项目报告,因此应当按具体工作负载理解,而不是当作通用吞吐保证。不过它们把目标环境说得很清楚。Data-Juicer 正在为语料规模的数据整理成形,而不仅限于笔记本清洗。[4]
这是一条有意义的边界。团队可以写一个简单脚本删除空行,却很难随手维护一条跨越数十亿样本、多个算子和持续变化质量规则的容错、可追踪、多模态数据流水线。一旦数据整理达到这种规模,配方管理、分布式运行、缓存行为、算子隔离和追踪就会变得和单个过滤器同样重要。[1][4]
PAI 集成把开放工具变成云端控制表面
阿里云 PAI 文档显示了开放项目如何进入托管平台通道。关于快速提交 DataJuicer 作业的英文指南称,PAI 引入 DataJuicer on DLC 作为大规模多模态数据处理的作业类型。页面描述称,该服务由阿里云 PAI 与通义实验室联合推出,支持 DataJuicer 作业一键提交到云端,覆盖清洗、过滤、转换、增强,并提供面向 LLM 多模态数据处理的算力访问。[5]
同一页面列出了商业控制表面的组成:超过 100 个核心算子、资源估算、Ray 分布式模式、单机模式、OSS 挂载数据集路径、YAML 启动命令、托管 API、容错、自愈,以及 GPU/CPU 异构资源池化。[5] 这就是企业侧动作。Data-Juicer 仍然保持开源,同时阿里巴巴也在给它提供托管路线,让数据作业进入 PAI 的配额、存储、资源和诊断环境。
这是 AI 中国熟悉的模式,只是位置上移到了更靠近上游的一层。开源发布带来社区触达和可复现性。云集成在实验需要规模、可靠性和更少手工集群持有时承载运行工作负载。对模型开发团队而言,如果数据路径已经绑定阿里巴巴基础设施,这会成为一个合理取舍。对要求严格可移植性的团队而言,它也形成一个观察点:配方应当在 PAI 之外继续运行,而不是只表现为一个云端按钮。[1][4][5]
观察什么
第一项观察,是配方工件是否会变得像模型工件一样可见。如果中国模型发布越来越多地公开数据处理配方、算子链、过滤政策、污染检查或追踪报告,Data-Juicer 这一类工具就会改变常规。如果配方继续隐藏,工具仍然能在内部发挥作用,但作为公共基础设施的重要性会降低。
第二项观察,是智能体数据。仓库已经指向智能体交互质量和坏例分析,近期发布也提到 Data-Juicer Agents 的重构。[1] 智能体系统会产生凌乱记录:工具失败、浏览器状态、局部计划、截图、代码差异、中间文件、用户修正和最终交付物。最强的数据系统不会只是清洗文本;它们会把这些轨迹组织成训练、评估和回归材料。
第三项观察,是多模态来源链。视频、图像、音频、文档和 LaTeX 算子让 Data-Juicer 更贴近前沿多模态工作,同时也提高了隐藏转换的风险。好的配方层应当让转换过程足够可检查,使模型团队能够解释哪些内容被移除、规范化、合成或保留。[1][3][4]
实际结论很窄。Data-Juicer 的重要性在于,它把 AI 中国讨论推进到模型卡下方。模型是看得见的工件。数据配方是更少被看见的契约,塑造模型最终能够成为什么。阿里巴巴与通义押注的是,这份契约应当被算子化、版本化、分布式处理、追踪,并能够在云端运行。如果这一押注成立,下一次严肃模型比较要问的就不只是“哪个 checkpoint 赢了”,还会问“哪个数据配方生成了这个 checkpoint,是否有人能再次运行它?”[1][2][3][4][5]
来源
- Data-Juicer GitHub 仓库、README 与发布说明(当前项目范围、以配方为先的流水线、200+ 算子、2026 年近期更新、生态集成和许可证细节)。
- Daoyuan Chen 等,"Data-Juicer: A One-Stop Data Processing System for Large Language Models," arXiv:2309.02033,2023 年 12 月 20 日修订(数据配方概念、算子抽象、评估闭环和报告的配方收益)。
- Daoyuan Chen 等,"Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models," arXiv:2501.14755,2025 年 10 月 29 日修订(多模态算子、自适应运行时、Ray 兼容性、UI/API 层以及阿里云 PAI 采用主张)。
- Data-Juicer 文档,"Distributed Data Processing in Data-Juicer"(Ray 与 PAI 支持、分布式运行设计,以及项目报告的大规模处理示例)。
- 阿里云 PAI 文档,"Quickly submit a DataJuicer job"(DataJuicer on DLC、托管云端提交、算子类别、分布式模式、资源估算、OSS 路径和容错表述)。
- Wikimedia Commons,"File:NOIRLab HQ Server Racks (6V6A0402-CC).jpg",作者 NOIRLab/NSF/AURA/T. Slovinsky(作为文章图片使用的 2022 年真实服务器机房照片)。