MinerU-Popo 把文档 AI 的难题推到跨页之后

这张互联网档案馆扫描中心的真实照片适合本文，因为 MinerU-Popo 处理的是页面被机器看见之后的下一步：怎样把跨页内容、表格、图像和标题重新整理成一篇可用的文档。[8]

截至 2026-05-29 UTC，MinerU-Popo 在 AI-China 里的有用信号，已经越过“又一个 OCR 模型能读一页纸”这层表面。它抓住的是文档 AI 进入生产后反复遇到的难题：解析器可以在单页上正确检测段落、表格、图像和边界框，检索系统真正需要的那篇逻辑文档却仍然散着。[1]

文档 AI 的许多评分仍停留在页面或元素层级。一个基准可以考察文本是否识别出来，表格是否匹配，公式是否保留下来，阅读顺序是否看起来合理。这些测试都必要，生产里的麻烦还会继续往后延伸。真实的企业和科研文档是多页对象。表格会跨页断开。章节标题会统领后面才开始的内容。图注会与图像分离。段落会被分页切断，却仍属于同一条思路。MinerU-Popo 把这些失效交给后处理阶段处理，让它们从孤立 OCR 错误中分出来。[1][5]

图片说明：封面使用 Jason Scott 于 2011 年拍摄、发布在 Wikimedia Commons 的旧金山互联网档案馆扫描中心照片。这是一张真实的档案/摄影图像，生成图、图表或示意图无法替代。它的视觉指向很实际：文档 AI 处在大规模扫描和摄取作业的下游，被数字化的对象是一条凌乱而漫长的记录，远比一张干净页面复杂。[8]

基准目标从页面文本移向整篇文档

MinerU-Popo 论文清楚描述了当前基于 VLM 的 OCR 模式：现代系统可以提取页面级元素，给出边界框和文本内容，但下游 RAG 应用需要整篇文档内部前后连贯。[1] 作者直接点出了缺失的关系。跨页连续性、被打断的段落、断裂的表格、标题层级和图文关联，都要求系统把多页内容合起来理解，单张页面图像内部的识别已经不够。[1]

这会改变“好分数”的含义。如果输出只是一堆页面局部的 Markdown 片段，清理问题就会转移到检索层。切块会把表格与表头拆开。搜索结果会取回段落后半截，却丢掉前半截。基于语料回答问题的模型会引用一幅图，同时遗失解释这幅图的文字。OCR 系统单看可以显得称职，RAG 系统却会变得脆弱。

MinerU-Popo 的做法，是把来自不同解析器的页面级 OCR 输出整理成一篇连贯文档。论文把任务分解为 four subtasks：文本截断恢复、表格截断恢复、标题层级重建、图文关联。[1] 这个拆法把后处理从一袋正则修补规则里拉出来，变成一组有名字、可评测、可追责的模型任务。

Popo 是后处理模型，定位有别于替代解析器

MinerU-Popo 中的 “Popo” 指 post-processing OCR outputs，即 OCR 输出后处理。论文提出的方案没有抛弃现有文档 AI 栈，也没有把自己写成一个包办一切的单体解析器。它是一个通用后处理环节，可以放在页面级解析器之后，修复它们未能保留的文档逻辑。[1]

放在 AI-China 里，这条路线有现实基础。中国的文档解析赛道已经相当拥挤。MinerU 本身把 PDF、图像、DOCX、PPTX 和 XLSX 输入转换成 Markdown 与 JSON，供下游检索、抽取和 agent 工作流使用；它宣传 VLM 加 OCR 引擎、109 种语言 OCR 识别、公式转 LaTeX、表格转 HTML、扫描文档检测、CPU/GPU 路径、本地 API 与 CLI 部署，以及对多种国产 AI 芯片的支持。[2] 百度、腾讯、智谱、PaddlePaddle 和其他中国团队也在推进 OCR 与文档理解系统。下一阶段优势较少来自宣布某个解析器通吃所有材料，更常来自让不同解析器的输出能接在一起。

MinerU-Popo 指向的正是这个方向。它复用已有 OCR 输出，构建带有任务特定过滤机制的任务导向数据引擎，基于 Qwen3-VL-4B 微调一个轻量后处理模型，使用 30K 个生成样例，并为长文档引入带重叠同步的动态切块。[1] 随后，模型把对齐后的输出组装成树状文档表示，并通过节点切块和摘要增强检索与分析能力。[1]

树表示由此成了产品里的关键分界。文档树能保存平面 Markdown 经常丢掉的上下级关系：标题统辖子节点，续表属于前一张表，图像和邻近说明应当一起移动，切块也应当尊重逻辑节点，不能盲目套用 token 窗口。文档解析正是在这里从预处理工具变成 agent 基础设施。

指标开始更接近真实问题

最初的 MinerU 论文把文档抽取表述为一个计算机视觉问题：尽管 OCR、版面检测和公式识别已经取得进展，现有开源方案仍难以应对文档类型与内容的多样性。[4] 那篇论文依靠模型以及精细调校的预处理和后处理规则，在多样文档上提升抽取质量。[4] MinerU-Popo 把后续阶段的经验说得更明确：页面识别提升之后，剩余错误会集中到结构层面。

MinerU2.5-Pro 强化了同一条以数据为中心的转向。它 2026 年 4 月的论文认为，最先进的文档解析模型虽然架构和参数规模不同，却在困难样本上呈现一致的失败模式。作者将瓶颈更多归因于训练数据的共同缺陷，模型架构只是其中一层；随后，他们保持 1.2B-parameter MinerU2.5 架构不变，通过多样性与难度感知采样、跨模型一致性验证，以及 judge-and-refine 标注循环，把数据引擎从不到 10 million 个样本扩展并精炼到 65.5 million 个样本。[3]

把 MinerU2.5-Pro 与 MinerU-Popo 放在一起看，可以看到一条连贯的推进线。第一波问题是：解析器能否足够好地抽取页面内容？下一波问题是：数据引擎是否覆盖了那些暴露真实失败的困难样本？后处理这一波问题则是：抽取完成之后，系统能否把文档逻辑恢复到足以支持检索、分析和 agent 工作的程度？[1][3][4]

OmniDocBench 提供了周边基准语境。它的论文认为，文档抽取支撑 LLM 与 RAG 的数据需求，而旧有评测过于狭窄或脱离真实场景。[5] 公开仓库现在描述了一个基准，包含 1,651 PDF pages、10 document types、5 layout types、5 language types，拥有丰富的块级与 span 级标注、阅读顺序标注、端到端与模块级评估，以及包括 normalized edit distance、BLEU、METEOR、TEDS 和检测指标在内的度量。[6] 仓库也显示 2026 年仍在活跃更新，包括 v1.6 与 v1.7 变化、更具挑战性的页面和新的模型评测。[6]

文档 AI 主张很容易坍缩成单一分数。MinerU-Popo 的窄口径价值，在于它让团队可以评估一个隐蔽的分数缺口：页面局部的成功转入整篇文档之后，还能不能继续成立。

为什么它属于 AI-China 栈

OpenDataLab 将自身描述为上海人工智能实验室数据平台中心下的数据中心化 AI 研究团队，研究方向包括多模态大模型、数据合成与检测、科学文档智能理解，以及 AI4Science。[7] 该团队明确把 MinerU 称为领先的开源 PDF 解析工具，并将其置于开放数据和科学文档理解工作之中。[7]

这个机构背景让 MinerU-Popo 的位置更清楚。中国的前沿模型竞争并不仅限于聊天模型和应用演示，也涉及把私有、科学、法律、医疗、金融、工业和档案材料转成模型可用输入的底层工作。一个国家级或企业级 AI 栈需要摄取、解析、过滤、评估、服务和检索。与一次模型发布相比，MinerU-Popo 体量较小，但它坐落在原始页面抽取与下游知识工作之间。

实际采用时也要把范围看清楚。MinerU-Popo 不应被读成所有文档解析问题已经解决的证明。它的主张来自论文报告，还需要在凌乱语料、扫描表单、双语材料、手写笔记、长表格、图表和特定领域版面上独立复现。它也依赖上游 OCR 输出的质量。后处理器可以修复文档组织；解析器从未看到或看错的事实，它无法稳定恢复。

更有力的结论范围更窄。MinerU-Popo 让下一个问题更难被绕开。当供应商说一个文档模型表现良好时，需要问分数只覆盖页面级抽取，还是也覆盖整篇文档的连续性。需要问层级、续表、图像关联、切块构造和 RAG 延迟是否接受了评估。需要问输出是视觉上像样的 Markdown 文件，还是能经受检索、引用和 agent 执行的结构化对象。

这就是这次发布的意义。它把中国文档 AI 从“模型能读懂页面吗？”推向“系统能重建文档契约吗？”在生产环境中，第二个问题通常才是昂贵失败所在的位置。

cronfeed.work

MinerU-Popo 把文档 AI 的难题推到跨页之后

基准目标从页面文本移向整篇文档

Popo 是后处理模型，定位有别于替代解析器

指标开始更接近真实问题

为什么它属于 AI-China 栈

来源

Recommended In ai china