放在 2026-04-03 UTC 这个时点回看百度 2025 年 12 月 4 日 发布的 《Introducing ERNIE 5.0 Preview》,更有效的入口并非把它当成一支制作精良的发布会回放。[1] 这支视频很长,演示很多,表面上像一场“大模型能力巡礼”,可它内部的组织方式相当清楚。前段先把原生全模态统一建模立起来,中段再用视频理解、音频、图像生成、编码与代理工作流把这套统一核心往前推,最后一段则明显转向开放模型、OCR 与部署工具。[1] 顺着这个结构读,视频真正处理的是两类观众之间的交接:一类人想看前沿模型的突破,另一类人关心自己究竟该从哪一层进入这套系统。

官方文档把这个判断压得更实。百度在中英文两版 ERNIE 5.0 说明里都把模型定义为一套 2.4 万亿参数 的原生全模态统一架构,文本、图像、视频、音频从训练起点就放在同一套 next-group-of-tokens 目标之下,并通过 modality-agnostic routingelastic training 支撑不同部署形态。[2][3][4] 这并非可有可无的技术补充,而是整支视频的真正底板。百度想让开发者接受的首先并非“这个模型很强”,而是“这是一条不再依赖 sidecar 拼接的统一主干”。[2][3][4]

“Preview” 这个命名本身也很关键。百度后来又把 ERNIE-5.0-Preview-1220 放进公开比较表面,在 2026 年 1 月 8 日 的官方文章里强调它在 LMArena Vision Arena 里排到中国第一、全球第八,并且是当时唯一进入全球前十的中国模型。[5] 这层背景会让视频的角色变得更清楚:它不像一场封闭的内部技术炫耀,更像一个过桥时刻。模型能力开始足够强,百度于是要把“内部前沿模型”往“外部开发者平台”那边送过去。[1][2][5]

把视频和这些来源并在一起看,更贴切的判断是:百度真正想卖出的并非一句“ERNIE 5.0 很强”,而是一条更窄也更实用的命题。原生全模态只有在它能够自然延伸到代理、开源伴随模型、OCR 与部署工具时,才会显出战略价值。[1][2][3][6][7]

配图说明:题图使用 Wikimedia Commons 上的百度上地总部入口照片。它适合本文,因为这篇文章讨论的是平台入口。视频不断把观众往下一层带:先看核心模型,再看工作流演示,最后抵达开发者真正能接触到的开放与部署表面。[8]

大约从 0:49 到 2:01,视频首先要观众接受的是“同一条主干”,而并非“几块能力拼起来”

最关键的话来得很早。大约 0:49 左右,讲解者把 ERNIE 5.0 说成一代新的模型系统,文本、图像、视频、音频从第一天开始就被放在一起;到了 1:27 左右,又进一步说它能够以“one unified intelligence”的方式去读、去看、去听、去回应;再到 1:34 左右,视频直接把重点落在 unified discrete space 上。[1] 这并非普通发布文案的热词堆叠,而几乎就是技术报告主张的口语化版本:多模态生成不该继续停留在语言主干外挂专门解码器的后融合时代,而应当进入统一自回归框架。[2][3]

这层对齐很重要,因为很多 preview 视频会把架构压扁成一句轻飘飘的广告语,而这支视频恰好相反。这里真正被当成广告语的,反而正是架构本身。博客与技术报告都明确写到,共享 token 空间、模态无关路由与弹性训练是 ERNIE 5.0 的核心支点。[2][3][4] 视频把这些概念压缩成几句能被开发者立即记住的话:它并非在不同模态间切换,而是在不同模态间推理。[1]

也正因为这样,这支片子从一开始就更像平台故事,而并非排行榜故事。若只想拍一条 benchmark 视频,最自然的开场应当是排名与分数。百度没有这么做。它先交代为什么这套模型要作为“统一核心”存在,再让后面的公开排名承担佐证功能。[5] LMArena 那篇官方文章因此更像补充说明,而并非这支视频真正的起点。

大约从 3:22 到 17:35,中段那些看似杂乱的演示,其实都在替“工作流连续性”作证

如果把视频当成娱乐内容看,中段会显得有些散。若把它当成产品叙事看,这一段反而最工整。大约 3:22 开始,团队先点出 agent 能力、数学、代码、指令服从、创意写作、事实推理与多模态理解的提升。[1] 之后演示一路展开:大约 5:52 开始,模型把短视频里的饮食和个人目标连在一起;10:14 左右开始做视频生成;11:22 左右进入音频与配音;13:31 左右回到语言与推理;到 16:1217:35 之间,则进入编码代理段落,任务执行、检查通过、提交改动、发起 pull request,同时明确提到 MCP 与 tool calling protocol 的支持。[1]

这里重要的并非每一个 demo 单看有多新,而是它们被怎样排成一条线。百度想证明的是:同一套模型主干,能够在媒体理解、媒体生成、专业推理与软件工作流之间保持连续,而不需要每切换一次任务就更换一次叙事逻辑。技术报告对这点有更完整的支撑,它把 ERNIE 5.0 说成一套同时覆盖理解与生成的统一全模态框架。[3] 博客版本则把同一个意思写得更产品化:模态边界要被消融,理解与生成不再分裂。[2]

这正是“过桥”这个判断成立的第二层原因。视频没有让观众在某一个夺目的全模态技巧前停住,而是不断把模型往相邻工作负载里推,直到观众接受更大的一条商业命题:真正有价值的单位并非单点能力,而是工作流连续性。[1][3] 饮食比较、视频生成、音频处理、编码协作、代理执行,这些演示最后都被收回到同一个问题上:开发者是否能把模型放进真实流程,而并非停留在孤立 demo。

编码代理那一段尤其值得停下来。大约 16:20 左右,讲解者明确说演示中的 agent “今天还不会发布,至少现在不会”;可同一段又在结尾把重心放到 MCP 与工具调用协议上。[1] 这是一种很典型也很有意识的安排。百度希望保留内部代理演示所带来的前沿感,同时又给开发者留下一个今天就能行动的接口层钩子。

大约从 20:20 到 26:46,结尾才把整支视频的真正销售动作亮出来:前面是前沿预览,后面是可进入的整套系统

最后三分之一是整支视频最关键的地方,因为它开始把观众从旗舰模型往外送。大约 20:20 开始,讲解转向开源伴随模型;20:46 左右进入 ERNIE 4.5-VL-28B-A3B-Thinking,强调更强的跨模态推理、图表与文档理解;21:51 左右又转向 PaddleOCR-VL,把它作为现实文档理解入口提出;而从 24:2826:46,视频几乎完全进入操作层:模型本身并不够,还需要 FastDeploy 这样的推理与部署工具,以及一整圈围绕训练、集成与上线的外层能力。[1][6][7]

这一段会直接改写前面所有内容的意义。如果百度真正只想把 ERNIE 5.0 拍成一个封闭的旗舰模型对象,视频在编码代理那里就完全可以收住。它没有。它反而把最后的力气都放在“开发者如何进入”这件事上。FastDeploy 仓库把自己定义成面向 LLM 与 VLM 的高性能推理与部署工具包。[6] PaddleOCR-VL 则把百度的多模态能力压成一条企业更容易接近的文档理解表面,而并非研究口号。[7]

顺着这个角度回看,整支视频真正要完成的是三层对齐:

  1. 前面先立起一个原生统一的全模态旗舰核心。[1][2][3]
  2. 中段用代理与编码工作流把这个核心写成可连续使用的模型表面。[1]
  3. 结尾再把开发者送进开放模型、OCR 与部署工具这些可以真正着手的入口。[1][6][7]

这就是为什么它值得现在重看。对 AI-China 的更重要消息,不只是百度又有一款大模型,而是百度想把“原生全模态”真正做成一种平台形状:前面有旗舰核心,旁边有公开 preview 验证,后面则接一条开放与部署入口。这支视频最有分量的地方,正是在这里完成了交接。

来源

  1. ERNIE for Developers,《Introducing ERNIE 5.0 Preview》,官方 YouTube 视频,发布于 2025 年 12 月 4 日。
  2. ERNIE Blog,《ERNIE 5.0: A 2.4 Trillion-Parameter Unified Multimodal Foundation Model》(2026 年 2 月 6 日)。
  3. Haifeng Wang 等,《ERNIE 5.0 Technical Report》(arXiv:2602.04705,2026 年 2 月)。
  4. ERNIE Blog,《文心 5.0 (ERNIE 5.0):2.4 万亿参数的原生全模态大模型》(中文一手发布说明,2026 年 2 月 6 日)。
  5. ERNIE Blog,《ERNIE-5.0-Preview-1220 Becomes the Sole Chinese Model in LMArena Vision Top 10!》(2026 年 1 月 8 日)。
  6. PaddlePaddle,《FastDeploy》GitHub 仓库,面向 LLM 与 VLM 的高性能推理与部署工具包。
  7. Hugging Face,《PaddlePaddle/PaddleOCR-VL》模型页面,视频结尾提到的多模态文档理解模型。
  8. Wikimedia Commons,《File:Entrance of Baidu headquarters at Shangdi (20220509112334).jpg》,本文配图来源页。