截至 2026-05-29 UTCMinerU-Popo 在 AI-China 语境里的有用信号,并非又一个 OCR 模型能够读懂一页纸。更尖锐的命题在于,文档 AI 正撞上一个单靠页面级识别无法解决的边界:解析器可以在单页上正确检测段落、表格、图像和边界框,却仍然无法重建检索系统真正需要的逻辑文档。[1]

这一区分很重要,因为文档 AI 竞赛中相当多的评分仍停留在页面或元素层级。一个基准可以考察文本是否识别出来,表格是否匹配,公式是否保留下来,阅读顺序是否看起来合理。这些测试都必要,却还没有覆盖完整的生产问题。真实的企业和科研文档是多页对象。表格会跨页断开。章节标题会统领后面才开始的内容。图注会与图像分离。段落会被分页切断,却仍属于同一条思路。MinerU-Popo 的有趣之处,在于它把这些失效看作后处理层要处理的问题,并将其从孤立 OCR 错误中分离出来。[1][5]

图片语境:封面使用 Jason Scott 于 2011 年拍摄、发布在 Wikimedia Commons 的旧金山互联网档案馆扫描中心照片。这是一张真实的档案/摄影图像,生成图、图表或示意图不在其范围内。它的视觉指向很实际:文档 AI 处在大规模扫描和摄取作业的下游,被数字化的对象是一条凌乱而漫长的记录,不只是一张干净页面。[8]

基准目标已经从页面文本转向文档结构

MinerU-Popo 论文清楚描述了当前基于 VLM 的 OCR 模式:现代系统可以提取页面级元素,给出边界框和文本内容,但下游 RAG 应用需要连贯的文档级信息。[1] 作者直接点出了缺失的关系。跨页连续性、被打断的段落、断裂的表格、标题层级和图文关联,都要求系统在多页范围内推理,而不只是识别一张页面图像内部有什么。[1]

这个框架很有力度,因为它改变了“好分数”的含义。如果输出只是一堆页面局部的 Markdown 片段,清理问题就会转移到检索层。切块会把表格与表头拆开。搜索结果会取回段落后半截,却丢掉前半截。基于语料回答问题的模型会引用一幅图,同时遗失解释这幅图的文字。OCR 系统孤立来看可以显得称职,RAG 系统却变得脆弱。

MinerU-Popo 的回答,是把来自不同解析器的页面级 OCR 输出转换成连贯的文档级结构。论文把任务分解为 four subtasks:文本截断恢复、表格截断恢复、标题层级重建、图文关联。[1] 这个分解是重要的工程动作。它说明后解析器阶段不该是一袋正则修补规则,而应当是由模型治理、职责具名且失效模式可度量的一层。

Popo 是后处理模型,定位有别于替代解析器

MinerU-Popo 中的 “Popo” 指 post-processing OCR outputs,即 OCR 输出后处理。这一点重要。论文提出的方案并非抛弃现有文档 AI 栈的单体解析器,它是一个通用后处理框架,可以放在页面级解析器之后,修复它们未能保留的逻辑结构。[1]

放在 AI-China 语境里,这条路线具有战略上的合理性,因为中国的文档解析赛道已经相当拥挤。MinerU 本身把 PDF、图像、DOCX、PPTX 和 XLSX 输入转换成 Markdown 与 JSON,供下游检索、抽取和 agent 工作流使用;它宣传 VLM 加 OCR 引擎、109 种语言 OCR 识别、公式转 LaTeX、表格转 HTML、扫描文档检测、CPU/GPU 路径、本地 API 与 CLI 部署,以及对多种国产 AI 芯片的支持。[2] 百度、腾讯、智谱、PaddlePaddle 和其他中国团队也在推进 OCR 与文档理解系统。下一阶段优势较少来自宣布某个解析器通吃所有场景,更常来自让解析器输出可以组合。

MinerU-Popo 指向的正是这个方向。它复用已有 OCR 输出,构建带有任务特定过滤机制的任务导向数据引擎,基于 Qwen3-VL-4B 微调一个轻量后处理模型,使用 30K 个生成样例,并为长文档引入带重叠同步的动态切块。[1] 随后,模型把对齐后的输出组装成树状文档表示,并通过节点切块和摘要增强检索与分析能力。[1]

这种树表示就是关键产品边界。文档树能够承载平面 Markdown 经常丢失的层级与关系。它让系统知道标题统辖子节点,续表属于前一张表,图像和邻近说明应当一起移动,切块也应当尊重逻辑节点,而不是盲目套用 token 窗口。文档解析正是在这里从预处理工具变成 agent 基础设施。

指标叙事正在变得更诚实

最初的 MinerU 论文把文档抽取表述为一个计算机视觉问题:尽管 OCR、版面检测和公式识别已经取得进展,现有开源方案仍难以应对文档类型与内容的多样性。[4] 那篇论文依靠模型以及精细调校的预处理和后处理规则,在多样文档上提升抽取质量。[4] MinerU-Popo 把后续阶段的经验说得更明确:页面识别提升之后,剩余错误会集中到结构层面。

MinerU2.5-Pro 强化了同一条以数据为中心的转向。它 2026 年 4 月的论文认为,最先进的文档解析模型虽然架构和参数规模不同,却在困难样本上呈现一致的失败模式。作者将瓶颈更多归因于训练数据的共同缺陷,模型架构只是其中一层;随后,他们保持 1.2B-parameter MinerU2.5 架构不变,通过多样性与难度感知采样、跨模型一致性验证,以及 judge-and-refine 标注循环,把数据引擎从不到 10 million 个样本扩展并精炼到 65.5 million 个样本。[3]

把 MinerU2.5-Pro 与 MinerU-Popo 放在一起看,会形成一条连贯的发展路径。第一波问题是:解析器能否足够好地抽取页面内容?下一波问题是:数据引擎是否覆盖了那些暴露真实失败的困难样本?后处理这一波问题则是:抽取完成之后,系统能否把文档逻辑恢复到足以支持检索、分析和 agent 工作的程度?[1][3][4]

OmniDocBench 提供了周边基准语境。它的论文认为,文档抽取支撑 LLM 与 RAG 的数据需求,而旧有评测过于狭窄或脱离真实场景。[5] 公开仓库现在描述了一个基准,包含 1,651 PDF pages10 document types5 layout types5 language types,拥有丰富的块级与 span 级标注、阅读顺序标注、端到端与模块级评估,以及包括 normalized edit distance、BLEU、METEOR、TEDS 和检测指标在内的度量。[6] 仓库也显示 2026 年仍在活跃更新,包括 v1.6 与 v1.7 变化、更具挑战性的页面和新的模型评测。[6]

这一点重要,因为文档 AI 主张很容易坍缩成单一分数。MinerU-Popo 的窄口径价值,在于它让团队可以评估一个隐蔽的分数缺口:页面局部的成功能否在转入文档级结构时继续成立。

为什么它属于 AI-China 栈

OpenDataLab 将自身描述为上海人工智能实验室数据平台中心下的数据中心化 AI 研究团队,研究方向包括多模态大模型、数据合成与检测、科学文档智能理解,以及 AI4Science。[7] 该团队明确把 MinerU 称为领先的开源 PDF 解析工具,并将其置于开放数据和科学文档理解工作之中。[7]

这个机构背景很重要。中国的前沿模型竞争并不仅限于聊天模型和应用演示,也涉及把私有、科学、法律、医疗、金融、工业和档案材料转成结构化模型输入的底层基质。一个国家级或企业级 AI 栈需要摄取、解析、过滤、评估、服务和检索。与一次模型发布相比,MinerU-Popo 体量较小,但它坐落在一个有价值的位置:原始页面抽取与下游知识工作之间。

实际采用边界也很清楚。MinerU-Popo 不应被读成所有文档解析问题已经解决的证明。它的主张来自论文报告,还需要在凌乱语料、扫描表单、双语材料、手写笔记、长表格、图表和特定领域版面上独立复现。它也依赖上游 OCR 输出的质量。后处理器可以修复结构;解析器从未看到或看错的事实,它无法稳定恢复。

更有力的结论范围更窄。MinerU-Popo 让下一个问题更难被绕开。当供应商说一个文档模型表现良好时,需要问分数只覆盖页面级抽取,还是也覆盖文档级连续性。需要问层级、续表、图像关联、切块构造和 RAG 延迟是否接受了评估。需要问输出是视觉上像样的 Markdown 文件,还是能经受检索、引用和 agent 执行的结构化对象。

这就是这次发布的意义。它把中国文档 AI 从“模型能读懂页面吗?”推向“系统能重建文档契约吗?”在生产环境中,第二个问题通常才是昂贵失败所在的位置。

来源

  1. Bangrui Xu et al., "MinerU-Popo: Universal Post-Processing Model for Structured Document Parsing," arXiv:2605.24973, submitted 2026-05-24 - 后处理框架、四个子任务、Qwen3-VL-4B 微调、动态切块、树表示和 RAG 主张。
  2. OpenDataLab, opendatalab/MinerU GitHub repository - 当前产品范围、支持的输入与输出格式、VLM/OCR 引擎、109 种语言 OCR、部署模式、硬件说明、国产芯片支持和 2026 年发布记录。
  3. Bin Wang et al., "MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale," arXiv:2604.04771, revised 2026-04-09 - 以数据为中心的解析瓶颈、未改变的 1.2B 架构、65.5M 样本数据引擎和标注策略。
  4. Bin Wang et al., "MinerU: An Open-Source Solution for Precise Document Content Extraction," arXiv:2409.18839, submitted 2024-09-27 - 原始 MinerU 技术报告,涉及高精度抽取、PDF-Extract-Kit 模型以及预处理/后处理规则。
  5. Linke Ouyang et al., "OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations," arXiv:2412.07626, accepted by CVPR 2025 - 基准动机、多样文档来源、版面类别、属性标签和端到端评估框架。
  6. OpenDataLab, opendatalab/OmniDocBench GitHub repository - 基准页面数量、文档与版面类型覆盖、标注类别、阅读顺序标注、评估指标和 2026 年版本更新。
  7. OpenDataLab, "Data-Centric AI Research" - 上海人工智能实验室 OpenDataLab 概览,提到 MinerU、数据中心化 AI、科学文档智能理解、多模态模型和 AI4Science 研究方向。
  8. Wikimedia Commons, "File:San Francisco Internet Archive Scanning Center.jpg" by Jason "Textfiles" Scott - 作为文章图片使用的 2011 年真实照片。