放在 2026-04-01 UTC 这个时点回看百度 2025 年 9 月 2 日 发布、时长 3 分 23 秒 的视频 《Meet ERNIE 4.5: Baidu Open-Source AI Model Family Explained in 3 Minutes》,更有效的看法并非把它当成一支压缩版 benchmark 广告。[1] 这支片子当然会讲能力、多模态、多语言和长上下文,可它真正有分量的地方在于编排顺序。百度没有先抛出一款“最强模型”,再把其他尺寸当成附属条目塞进结尾,它一开场就把整套家族摆出来,随后整支视频都在解释这套家族为什么要这样排布。[1]
书面材料把这一点讲得更清楚。ERNIE 官方博客把 10 个版本 摆成一组,里面既有激活参数规模分别为 47B 与 3B 的 MoE 路线,也有总参数量 424B 的顶配版本,以及 0.3B 的稠密模型,而且全部放在 Apache 2.0 许可之下。[2][6] 技术报告与 Hugging Face 模型卡又把结构继续往下压实:这并非把一款模型机械缩放成多个尺寸,而是一组围绕多模态异构 MoE、模态定向后训练、长上下文和多入口分发面共同组织起来的产品组合。[3][4]
顺着视频与文档一起读,更贴切的判断是:ERNIE 4.5 被推销的第一层身份,是一套覆盖系统,然后才是一件单独的前沿模型产品。[1][2][3][4][5][6] 百度希望开发者相信,自己不用为了大体量多语言文本任务找一套模型,为边缘设备再找一套,为文档视觉或视频理解再换一套。家族化设计的意义,就是把这些工作负载都留在同一套命名、同一套发布叙事、同一套开发者习惯里。
配图说明:题图使用 Wikimedia Commons 上的百度 ZPark 二期园区实景照片。它适合本文,因为这里讨论的是公司层面的产品组织方式与模型家族覆盖面,并非抽象的 AI 概念图。[7]
大约从 0:20 开始,视频真正抛出的主题是选择架构
最关键的一步来得非常早。大约 0:20 左右,讲解者先谈家族里有适配不同应用场景的不同尺寸,而且每个尺寸都同时给出 base 与 post-trained 版本。[1] 这句话看上去平直,实际上已经改写了整支视频的性质。benchmark 广告要说服你“一款模型最强”,家族广告则要说服你“这张菜单的排法本身很合理”。
后面的第一分钟完全沿着这条线展开。300B 版本被定位成负责 instruction following、knowledge retrieval、math reasoning、code generation 与 multilingual 场景的旗舰路数;21B 被定位成 20B 档位里更现实的选择;0.3B 稠密模型则被定位成适合边缘侧运行与定向微调的轻量入口。[1] 这些判断连在一起之后,视频讲的就不再是“哪一款最厉害”,而是“每一层从哪里开始变得合适”。
书面材料也维持着同一套姿态。博客与仓库把 base/post-trained 分开列出,Hugging Face 的页面又把小尺寸路线做得可以直接理解,而并非全部让位于一张旗舰海报。[2][4][5] 这件事放在 AI-China 的语境里很重要,因为很多模型发布依然更像 prestige object,先要制造惊艳感,再谈真正的产品组织。ERNIE 4.5 的叙事方向更像一个经过设计的选择系统,它试图降低开发者在家族内部做选择的认知成本,而并非要求所有任务都围绕一款 halo model 转动。[1][2][5]
大约从 1:07 开始,多模态部分说明百度要的是对称结构,并非外挂侧车
第二个明确信号出现在视频切到 ERNIE 4.5-VL 的位置,大约在 1:07。[1] 这里同样没有把多模态包装成一条与主线分离的研究特例,而是继续沿用家族语法:一条是面向高级图像、视频与推理任务的 424B 视觉语言路线,另一条是强调性能与效率平衡的 28B 路线。[1] 这层编排的含义并不轻。百度并不想把多模态讲成主模型之外的遥远支线,它想把它重新折回同一套产品矩阵。
这正是技术报告有价值的地方。百度在报告里谈到 heterogeneous multimodal MoE structure、模态隔离路由以及模态定向后训练,目标是让文本能力与视觉能力共存,而并非互相拖累。[3] Hugging Face 与仓库里的材料则把这套结构进一步落到产品层面,清楚区分 text 模型与 vision-language 模型,并在更大的家族语境里保留 thinking 与 non-thinking 的差异。[4][5] 于是这套组合出现了明显的对称性:文本侧有重与轻,多模态侧也有重与轻,base 与 post-trained 在两边都成立。[2][3][4][5]
本文最核心的判断也在这里。ERNIE 4.5 并不只是若干 checkpoint 的集合,它更像百度试图搭出来的一张工作负载映射表:模型要么大要么小,要么偏文本要么偏视觉语言,要么偏 base 要么偏 post-trained,要么强调 thinking 要么强调 non-thinking,但整套东西始终被讲成一个系统。[1][2][3][4] 这个战略信息,比“我们的顶配模型成绩很好”更重要。
大约从 2:07 开始,长上下文与多语言把模型家族变成覆盖承诺
到了 2:07 左右,视频从型号表转向使用表面:128,000 tokens 的上下文长度、整本书、财报、大型代码库,以及随后接上的 100+ languages。[1] 这一段最容易被当成模板式发布文案,可它实际上在补足家族设计的实际用途。重点并不只是某个模型能吃下多少 token,也不只是它能覆盖多少语言。重点在于开发者能否在 ERNIE 这套组合内部完成从长文档处理、代码分析、多语言支持到视觉语言任务的迁移,而不用频繁改换系统。
相关来源给出了相同的支撑。博客与仓库都把 128K 当成家族级特征反复出现,视频说明区又把多语言与长上下文跟型号梯度并排写出来。[1][2][5] 轻量模型负责把家族往资源受限环境里拉,重型模型负责把家族往研究密集或多模态场景里推,长上下文与语言广度则像一根中轴,把这些尺寸差异拧成一条连续的产品线,而并非五六个互相无关的发布条目。
这也解释了为什么视频举的例子都相当日常。书、财报、药品标签、表格、代码库,这些都并非为了制造舞台震撼感而挑出来的对象。[1] 它们更像是工作负载类别,作用是让开发者迅速感到替换成本与迁移路径。百度其实在说:如果你的工作会在企业文档、多语言客户场景与视觉输入之间来回滑动,这套家族已经按照这种滑动方式排好了。至于这个承诺在第三方生产环境里最终能否站稳,那是另一层问题;至少这支视频的推销意图是非常清楚的。[1][2][5]
大约从 2:47 开始,结尾之所以重要,是因为模型家族必须能被进入
最后一个值得停下来的位置大约在 2:47。讲解者不再继续讲能力,而是开始报入口:ernie.baidu.com 上可以直接体验顶配模型,Hugging Face 与 GitHub 上有开放权重与代码,AI Studio 还能提供 playground 做测试与实验。[1] 这一段并非收尾填充,而是百度把“型号表”转成“开发者习惯”的关键一步。
这也是本文与归档里那篇 ERNIE 4.5 stack/supply-chain 文章分开的地方。这里首先关心的并非部署工具链,而是百度很清楚,一套模型家族如果只有一个入口,它在感知上就不会像家族。[1][2][4][5] 有人要先跑 hosted flagship,有人更在意本地权重,有人想先进 playground 试尺寸,再决定走哪一层路线。视频把结尾放在这些入口上,正因为家族叙事如果没有可进入的表面,就会立刻显得空。
所以这支片子值得现在重看。它最强的消息,并非一条 benchmark boast,也并非某个多模态 demo,而是一条组织方式上的声明:百度希望 ERNIE 4.5 被理解成一组受控展开的选项,这些选项足够分层,却又始终回收到同一套面向开发者的产品组合里。放在 AI-China 竞争语境里,这是有分量的动作。它试图让模型选择看起来不再像跨生态迁移,而更像是在同一把梯子上往上一格或往下一格移动。
来源
- ERNIE for Developers,《Meet ERNIE 4.5: Baidu Open-Source AI Model Family Explained in 3 Minutes》,官方 YouTube 视频,发布于 2025 年 9 月 2 日。
- ERNIE Blog,《Announcing the Open Source Release of the ERNIE 4.5 Model Family》(2025 年 6 月 30 日;10 个版本、47B 与 3B 激活参数 MoE 路线、424B 顶配模型与 Apache 2.0 开源)。
- 百度 ERNIE 团队,《ERNIE Technical Report》PDF(ERNIE publication 页面提供;多模态异构 MoE 结构与后训练设计)。
- Hugging Face,《baidu/ERNIE-4.5-21B-A3B-PT》(百度官方模型卡;21B 总参数、3B 激活参数与 131072 token 上下文长度)。
- PaddlePaddle,《ERNIE》GitHub 仓库 README(涵盖 300B、21B、0.3B 与 VL 路线,并明确 base/post-trained 分层)。
- ERNIE Blog,《ERNIE 4.5 模型系列正式开源》(中文一手发布说明;10 模型家族、47B/3B 激活参数 MoE 路线、424B 顶配模型与 0.3B 稠密路线)。
- Wikimedia Commons,《File:Baidu Technology Park at ZPark Phase II (20220502113650).jpg》(本文配图所用园区照片来源页)。