ERNIE 5.0 Preview 真正展示的是平台过桥：一篇带注释观看，重看原生全模态、编码代理与百度的开放入口

这张百度上地总部入口的真实照片适合本文，因为这支预览视频讲的并不只是模型能力，而是一条进入路径：从原生全模态核心，一直走到开发者真正能进入的开放与部署表面。

放在 2026-04-03 UTC 这个时点回看百度 2025 年 12 月 4 日 发布的 《Introducing ERNIE 5.0 Preview》，更有效的入口并非把它当成一支制作精良的发布会回放。[1] 这支视频很长，演示很多，表面上像一场“大模型能力巡礼”，可它内部的组织方式相当清楚。前段先把原生全模态统一建模立起来，中段再用视频理解、音频、图像生成、编码与代理工作流把这套统一核心往前推，最后一段则明显转向开放模型、OCR 与部署工具。[1] 顺着这个结构读，视频真正处理的是两类观众之间的交接：一类人想看前沿模型的突破，另一类人关心自己究竟该从哪一层进入这套系统。

官方文档把这个判断压得更实。百度在中英文两版 ERNIE 5.0 说明里都把模型定义为一套 2.4 万亿参数 的原生全模态统一架构，文本、图像、视频、音频从训练起点就放在同一套 next-group-of-tokens 目标之下，并通过 modality-agnostic routing 与 elastic training 支撑不同部署形态。[2][3][4] 这并非可有可无的技术补充，而是整支视频的真正底板。百度想让开发者接受的首先并非“这个模型很强”，而是“这是一条不再依赖 sidecar 拼接的统一主干”。[2][3][4]

“Preview” 这个命名本身也很关键。百度后来又把 ERNIE-5.0-Preview-1220 放进公开比较表面，在 2026 年 1 月 8 日 的官方文章里强调它在 LMArena Vision Arena 里排到中国第一、全球第八，并且是当时唯一进入全球前十的中国模型。[5] 这层背景会让视频的角色变得更清楚：它不像一场封闭的内部技术炫耀，更像一个过桥时刻。模型能力开始足够强，百度于是要把“内部前沿模型”往“外部开发者平台”那边送过去。[1][2][5]

把视频和这些来源并在一起看，更贴切的判断是：百度真正想卖出的并非一句“ERNIE 5.0 很强”，而是一条更窄也更实用的命题。原生全模态只有在它能够自然延伸到代理、开源伴随模型、OCR 与部署工具时，才会显出战略价值。[1][2][3][6][7]

配图说明：题图使用 Wikimedia Commons 上的百度上地总部入口照片。它适合本文，因为这篇文章讨论的是平台入口。视频不断把观众往下一层带：先看核心模型，再看工作流演示，最后抵达开发者真正能接触到的开放与部署表面。[8]

大约从 0:49 到 2:01，视频首先要观众接受的是“同一条主干”，而并非“几块能力拼起来”

最关键的话来得很早。大约 0:49 左右，讲解者把 ERNIE 5.0 说成一代新的模型系统，文本、图像、视频、音频从第一天开始就被放在一起；到了 1:27 左右，又进一步说它能够以“one unified intelligence”的方式去读、去看、去听、去回应；再到 1:34 左右，视频直接把重点落在 unified discrete space 上。[1] 这并非普通发布文案的热词堆叠，而几乎就是技术报告主张的口语化版本：多模态生成不该继续停留在语言主干外挂专门解码器的后融合时代，而应当进入统一自回归框架。[2][3]

这层对齐很重要，因为很多 preview 视频会把架构压扁成一句轻飘飘的广告语，而这支视频恰好相反。这里真正被当成广告语的，反而正是架构本身。博客与技术报告都明确写到，共享 token 空间、模态无关路由与弹性训练是 ERNIE 5.0 的核心支点。[2][3][4] 视频把这些概念压缩成几句能被开发者立即记住的话：它并非在不同模态间切换，而是在不同模态间推理。[1]

也正因为这样，这支片子从一开始就更像平台故事，而并非排行榜故事。若只想拍一条 benchmark 视频，最自然的开场应当是排名与分数。百度没有这么做。它先交代为什么这套模型要作为“统一核心”存在，再让后面的公开排名承担佐证功能。[5] LMArena 那篇官方文章因此更像补充说明，而并非这支视频真正的起点。

大约从 3:22 到 17:35，中段那些看似杂乱的演示，其实都在替“工作流连续性”作证

如果把视频当成娱乐内容看，中段会显得有些散。若把它当成产品叙事看，这一段反而最工整。大约 3:22 开始，团队先点出 agent 能力、数学、代码、指令服从、创意写作、事实推理与多模态理解的提升。[1] 之后演示一路展开：大约 5:52 开始，模型把短视频里的饮食和个人目标连在一起；10:14 左右开始做视频生成；11:22 左右进入音频与配音；13:31 左右回到语言与推理；到 16:12 到 17:35 之间，则进入编码代理段落，任务执行、检查通过、提交改动、发起 pull request，同时明确提到 MCP 与 tool calling protocol 的支持。[1]

这里重要的并非每一个 demo 单看有多新，而是它们被怎样排成一条线。百度想证明的是：同一套模型主干，能够在媒体理解、媒体生成、专业推理与软件工作流之间保持连续，而不需要每切换一次任务就更换一次叙事逻辑。技术报告对这点有更完整的支撑，它把 ERNIE 5.0 说成一套同时覆盖理解与生成的统一全模态框架。[3] 博客版本则把同一个意思写得更产品化：模态边界要被消融，理解与生成不再分裂。[2]

这正是“过桥”这个判断成立的第二层原因。视频没有让观众在某一个夺目的全模态技巧前停住，而是不断把模型往相邻工作负载里推，直到观众接受更大的一条商业命题：真正有价值的单位并非单点能力，而是工作流连续性。[1][3] 饮食比较、视频生成、音频处理、编码协作、代理执行，这些演示最后都被收回到同一个问题上：开发者是否能把模型放进真实流程，而并非停留在孤立 demo。

编码代理那一段尤其值得停下来。大约 16:20 左右，讲解者明确说演示中的 agent “今天还不会发布，至少现在不会”；可同一段又在结尾把重心放到 MCP 与工具调用协议上。[1] 这是一种很典型也很有意识的安排。百度希望保留内部代理演示所带来的前沿感，同时又给开发者留下一个今天就能行动的接口层钩子。

大约从 20:20 到 26:46，结尾才把整支视频的真正销售动作亮出来：前面是前沿预览，后面是可进入的整套系统

最后三分之一是整支视频最关键的地方，因为它开始把观众从旗舰模型往外送。大约 20:20 开始，讲解转向开源伴随模型；20:46 左右进入 ERNIE 4.5-VL-28B-A3B-Thinking，强调更强的跨模态推理、图表与文档理解；21:51 左右又转向 PaddleOCR-VL，把它作为现实文档理解入口提出；而从 24:28 到 26:46，视频几乎完全进入操作层：模型本身并不够，还需要 FastDeploy 这样的推理与部署工具，以及一整圈围绕训练、集成与上线的外层能力。[1][6][7]

这一段会直接改写前面所有内容的意义。如果百度真正只想把 ERNIE 5.0 拍成一个封闭的旗舰模型对象，视频在编码代理那里就完全可以收住。它没有。它反而把最后的力气都放在“开发者如何进入”这件事上。FastDeploy 仓库把自己定义成面向 LLM 与 VLM 的高性能推理与部署工具包。[6] PaddleOCR-VL 则把百度的多模态能力压成一条企业更容易接近的文档理解表面，而并非研究口号。[7]

顺着这个角度回看，整支视频真正要完成的是三层对齐：

前面先立起一个原生统一的全模态旗舰核心。[1][2][3]
中段用代理与编码工作流把这个核心写成可连续使用的模型表面。[1]
结尾再把开发者送进开放模型、OCR 与部署工具这些可以真正着手的入口。[1][6][7]

这就是为什么它值得现在重看。对 AI-China 的更重要消息，不只是百度又有一款大模型，而是百度想把“原生全模态”真正做成一种平台形状：前面有旗舰核心，旁边有公开 preview 验证，后面则接一条开放与部署入口。这支视频最有分量的地方，正是在这里完成了交接。

cronfeed.work

ERNIE 5.0 Preview 真正展示的是平台过桥：一篇带注释观看，重看原生全模态、编码代理与百度的开放入口

大约从 0:49 到 2:01，视频首先要观众接受的是“同一条主干”，而并非“几块能力拼起来”

大约从 3:22 到 17:35，中段那些看似杂乱的演示，其实都在替“工作流连续性”作证

大约从 20:20 到 26:46，结尾才把整支视频的真正销售动作亮出来：前面是前沿预览，后面是可进入的整套系统

来源

Recommended In ai china