把时间锚定在 2026-04-30 UTC,理解 PaddleOCR-VL-1.5 的入口,落在评测边界本身。PaddleOCR 的官方材料把几件事并排写得很清楚:模型在 OmniDocBench v1.5 上达到 94.5%,参数规模维持在 0.9B,新增了印章识别与文本 spotting,同时又引入 Real5-OmniDocBench,专门把五类最容易在生产里击穿文档系统的物理条件拉出来单独评测,分别是扫描伪影、形变弯曲、屏幕翻拍、光照扰动与倾斜拍摄。[1][2][4][5]
这样一来,这次发布的意思就变了。许多文档模型的发布叙事,仍然把重点放在“干净页面上的解析成绩”上。PaddleOCR-VL-1.5 则把公开讨论往下一层、也往更接近现场的一层推了一步。它提出了两层主张:一层是“我们把文本、表格、公式解析得更好”,另一层是“那些常常在真实系统里先把模型打垮的页面形变条件,应该被当成公开命名的一条评测赛道,直接摆进发布结构之中。”[1][4][5]
图片说明:题图采用 Wikimedia Commons 上保存的美国国家档案馆图书馆实景照片。它适合本文,因为文档解析真正要面对的工作面,落在书架、档案、扫描件、手机拍摄页,以及机构纸面流程里那些持续积压下来的复杂材料上。[7]
真正更重要的变化,不在 94.5 这个数字本身
94.5 当然值得注意,可更能说明问题的,是围绕它展开的评测结构。OmniDocBench 本来就是一套超出简单 OCR 准确率测试范畴的基准。项目公开说明里写到,这个基准覆盖 1,651 页 PDF,横跨 10 类文档类型、5 类版面类型、5 类语言类型,同时给出 文本、表格、公式 与 阅读顺序 等多层级标注,既覆盖 block-level,也覆盖 span-level 元素。[6] 这已经是一套相当严肃的文档解析评测,远离轻量玩具集的尺度。
但它依然保留着一个常见落差:评测环境和部署现场之间的距离。很多文档系统在干净 PDF 上看起来体面,一旦页面被弯折、照明不均、从屏幕上翻拍、或者扫描时带着角度进入,就会明显失真。PaddleOCR-VL-1.5 的官方介绍,恰好把这个落差提到发布正中央。文档直接写到,团队为了评估真实物理形变下的鲁棒性,引入了 Real5-OmniDocBench,把扫描、倾斜、弯曲、屏幕翻拍与光照这五类情形单独拉出来,并声称模型在这些切片上持续达到新的 SOTA。[1][4]
这才是更有分量的评测故事。模型如今被检验的,既包括“文档是什么”,也包括“文档在进入模型之前经历了什么”。而在真实部署里,后者常常更决定系统是否有用。
这里也有一个需要守住的边界。官方模型卡明确说明,性能表大部分指标来自 OmniDocBench 官方 leaderboard,但其中 Gemini-3 Pro、Qwen3-VL-235B-A22B-Instruct 和 他们自己的模型,是按照公开设定独立评测后填入对比表的,公共榜单单行结果之外还有额外复测。[4] 这条说明保留了成绩的意义,也提醒读者,94.5 更适合被看成一条公开设定下、由官方给出的强比较结论,后续仍值得继续核对设置差异。
这次产品动作的核心,落在“紧凑鲁棒性”
第二个值得看重的地方,在于鲁棒性叙事被装进了一个相对紧凑的对象里。官方文档和模型卡反复强调同一个事实:PaddleOCR-VL-1.5 维持在 0.9B 参数规模,同时继续扩大任务边界。[1][4] 它的公开身份,从一开始就围绕文档解析和复杂条件鲁棒性搭了起来。
GitHub 发布页把这一层写得更直。PaddleOCR 说,2026-01-29 发布的 3.4.0 版本引入了用于不规则形状定位的 PP-DocLayoutV3,把支持语言扩展到 111 种,加上了印章识别与文本 spotting,同时增强了长文档处理里的跨页表格合并和层级标题识别。[3] 这些都属于工作流意义上的能力补充。它描述的是一台预计会遇到真实档案结构、会反复穿过复杂页面条件的解析器。
模型卡又补了一层关键限制。页面说明里明确写到,推荐使用官方推理路径,因为它更快,也支持页面级 document parsing;相比之下,较简化的 transformers 示例只覆盖元素级识别和 spotting 任务。[4] 这一点很重要,因为它把系统的操作重心摆得很清楚。PaddleOCR-VL-1.5 更像一条带着首选服务路径的文档流水线。
也正因如此,这次发布读起来更像基础设施更新。官方材料强调 Markdown 和 JSON 风格输出,强调表格、图表、公式、印章与 spotting 的联合识别,也强调可部署路径,把重心从一张学术表格推向后续工作流。[1][3][4] 这里真正被出售的,是“模型能否把结构化材料继续交给检索、抽取、审计、索引等后续系统”。
这件事放在 AI-China 里,为什么现在值得看
放回 ai-china 这一条线,更大的信号是:文档解析正在被做成一种公开可辨认的中间件类别,而不再只是深埋在企业解决方案里的一个功能块。过去两年,中国模型生态已经在聊天榜单、编码智能体和多模态演示上花了大量力气。下一层更难营销、却更容易沉淀收入的竞争,恰好落在这里:谁能把丑陋、受损、拍歪、翻拍过的页面,稳定地翻译成机器可用的结构,服务金融、政务、档案、物流、法务审阅和工业纸面流程。
PaddleOCR-VL-1.5 在这一点上显得格外清楚。仓库说明仍把 PaddleOCR 定位成一座从 PDF 和图像通向结构化数据的桥,并且直接写到新版本在手写文本和历史文档这类更难的材料上也有针对性表现。[3] 这种措辞很重要,因为它说明目标覆盖那些由软件直接导出的办公室 PDF,也覆盖纸面世界里更脏、更旧、也更容易出错的边缘地带。
这里还有一层版本治理上的提醒。OmniDocBench 自己也在继续变化。仓库说明写到,主分支如今已经更新到 v1.6,若要按 v1.5 做比较,应切换到相应版本分支。[6] 对 2026 年的文档模型比较而言,这一层就是判断是否成立的前提。基准、数据集与评测代码都带着版本边界,若分支混淆,再漂亮的分数也很难拿来做稳固结论。
顺着这个角度往下看,PaddleOCR-VL-1.5 正在帮助定义一种更贴近现场的文档智能公开测试方式:页面形变、光照损伤、翻拍噪声和结构受损,开始作为公开评测里被正式命名、被单独对待的一层内容出现。[1][4][5][6]
接下来最值得继续看的验证点也很清楚。第一,看其他团队是否开始主动引用或挑战 Real5-OmniDocBench,继续把注意力从更干净的解析榜单引向更复杂的现场条件。[1][4][6] 第二,看独立复现实验在严格对齐版本边界和服务设定之后,是否还能维持相近的排序关系。[4][6] 第三,看这个0.9B 的紧凑对象,是否真的能在本地或混合式文档流水线里持续站住脚,因为在那里,吞吐、GPU 预算和预处理摩擦,常常和准确率同样重要。[1][3][4][5]
如果这些条件继续成立,PaddleOCR-VL-1.5 真正重要的地方,将从那条 94.5 的成绩线继续向外展开,落到它推动形成的那条新赛道上:真实世界文档形变,正在被当成 AI-China 里的一级评测与产品问题。
来源
- PaddleOCR Documentation, "PaddleOCR-VL-1.5 Introduction"(英文页;94.5、Real5-OmniDocBench、0.9B、不规则形状定位、文本 spotting 与印章识别)。
- PaddleOCR 文档,《PaddleOCR-VL-1.5简介》(中文一手页面;版本定位、94.5、Real5-OmniDocBench 与任务扩展)。
- PaddlePaddle, "PaddleOCR" GitHub repository README(2026-01-29 v3.4.0 发布说明,PP-DocLayoutV3、111 种语言、跨页表格合并与部署表述)。
- PaddlePaddle, "PaddleOCR-VL-1.5" Hugging Face model card(0.9B 模型卡、独立评测说明、Real5-OmniDocBench 描述与推理路径边界)。
- Cui et al., "PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing"(arXiv:2601.21957;2026 年 1 月 29 日技术报告,介绍 Real5-OmniDocBench 与 0.9B 鲁棒性路径)。
- OpenDataLab, "OmniDocBench" GitHub repository(基准覆盖范围、标注结构、版本说明,以及文本、表格、公式和阅读顺序评测结构)。
- Wikimedia Commons, "File:Photograph of the Library at the National Archives (35877994702).jpg"(本文封面所用档案馆照片的来源页)。