ERNIE 4.5 真正想卖的是模型家族：一篇关于百度 dense-MoE 梯度、多模态分层与开发者覆盖面的解说式视频策展

这张百度 ZPark 园区的真实照片适合本文，因为视频展示的重点并非一款孤立模型的舞台效果，而是百度试图把 ERNIE 4.5 组织成一整个可被进入、可被选择的产品家族。

放在 2026-04-01 UTC 这个时点回看百度 2025 年 9 月 2 日 发布、时长 3 分 23 秒 的视频 《Meet ERNIE 4.5: Baidu Open-Source AI Model Family Explained in 3 Minutes》，更有效的看法并非把它当成一支压缩版 benchmark 广告。[1] 这支片子当然会讲能力、多模态、多语言和长上下文，可它真正有分量的地方在于编排顺序。百度没有先抛出一款“最强模型”，再把其他尺寸当成附属条目塞进结尾，它一开场就把整套家族摆出来，随后整支视频都在解释这套家族为什么要这样排布。[1]

书面材料把这一点讲得更清楚。ERNIE 官方博客把 10 个版本 摆成一组，里面既有激活参数规模分别为 47B 与 3B 的 MoE 路线，也有总参数量 424B 的顶配版本，以及 0.3B 的稠密模型，而且全部放在 Apache 2.0 许可之下。[2][6] 技术报告与 Hugging Face 模型卡又把结构继续往下压实：这并非把一款模型机械缩放成多个尺寸，而是一组围绕多模态异构 MoE、模态定向后训练、长上下文和多入口分发面共同组织起来的产品组合。[3][4]

顺着视频与文档一起读，更贴切的判断是：ERNIE 4.5 被推销的第一层身份，是一套覆盖系统，然后才是一件单独的前沿模型产品。[1][2][3][4][5][6] 百度希望开发者相信，自己不用为了大体量多语言文本任务找一套模型，为边缘设备再找一套，为文档视觉或视频理解再换一套。家族化设计的意义，就是把这些工作负载都留在同一套命名、同一套发布叙事、同一套开发者习惯里。

配图说明：题图使用 Wikimedia Commons 上的百度 ZPark 二期园区实景照片。它适合本文，因为这里讨论的是公司层面的产品组织方式与模型家族覆盖面，并非抽象的 AI 概念图。[7]

大约从 0:20 开始，视频真正抛出的主题是选择架构

最关键的一步来得非常早。大约 0:20 左右，讲解者先谈家族里有适配不同应用场景的不同尺寸，而且每个尺寸都同时给出 base 与 post-trained 版本。[1] 这句话看上去平直，实际上已经改写了整支视频的性质。benchmark 广告要说服你“一款模型最强”，家族广告则要说服你“这张菜单的排法本身很合理”。

后面的第一分钟完全沿着这条线展开。300B 版本被定位成负责 instruction following、knowledge retrieval、math reasoning、code generation 与 multilingual 场景的旗舰路数；21B 被定位成 20B 档位里更现实的选择；0.3B 稠密模型则被定位成适合边缘侧运行与定向微调的轻量入口。[1] 这些判断连在一起之后，视频讲的就不再是“哪一款最厉害”，而是“每一层从哪里开始变得合适”。

书面材料也维持着同一套姿态。博客与仓库把 base/post-trained 分开列出，Hugging Face 的页面又把小尺寸路线做得可以直接理解，而并非全部让位于一张旗舰海报。[2][4][5] 这件事放在 AI-China 的语境里很重要，因为很多模型发布依然更像 prestige object，先要制造惊艳感，再谈真正的产品组织。ERNIE 4.5 的叙事方向更像一个经过设计的选择系统，它试图降低开发者在家族内部做选择的认知成本，而并非要求所有任务都围绕一款 halo model 转动。[1][2][5]

大约从 1:07 开始，多模态部分说明百度要的是对称结构，并非外挂侧车

第二个明确信号出现在视频切到 ERNIE 4.5-VL 的位置，大约在 1:07。[1] 这里同样没有把多模态包装成一条与主线分离的研究特例，而是继续沿用家族语法：一条是面向高级图像、视频与推理任务的 424B 视觉语言路线，另一条是强调性能与效率平衡的 28B 路线。[1] 这层编排的含义并不轻。百度并不想把多模态讲成主模型之外的遥远支线，它想把它重新折回同一套产品矩阵。

这正是技术报告有价值的地方。百度在报告里谈到 heterogeneous multimodal MoE structure、模态隔离路由以及模态定向后训练，目标是让文本能力与视觉能力共存，而并非互相拖累。[3] Hugging Face 与仓库里的材料则把这套结构进一步落到产品层面，清楚区分 text 模型与 vision-language 模型，并在更大的家族语境里保留 thinking 与 non-thinking 的差异。[4][5] 于是这套组合出现了明显的对称性：文本侧有重与轻，多模态侧也有重与轻，base 与 post-trained 在两边都成立。[2][3][4][5]

本文最核心的判断也在这里。ERNIE 4.5 并不只是若干 checkpoint 的集合，它更像百度试图搭出来的一张工作负载映射表：模型要么大要么小，要么偏文本要么偏视觉语言，要么偏 base 要么偏 post-trained，要么强调 thinking 要么强调 non-thinking，但整套东西始终被讲成一个系统。[1][2][3][4] 这个战略信息，比“我们的顶配模型成绩很好”更重要。

大约从 2:07 开始，长上下文与多语言把模型家族变成覆盖承诺

到了 2:07 左右，视频从型号表转向使用表面：128,000 tokens 的上下文长度、整本书、财报、大型代码库，以及随后接上的 100+ languages。[1] 这一段最容易被当成模板式发布文案，可它实际上在补足家族设计的实际用途。重点并不只是某个模型能吃下多少 token，也不只是它能覆盖多少语言。重点在于开发者能否在 ERNIE 这套组合内部完成从长文档处理、代码分析、多语言支持到视觉语言任务的迁移，而不用频繁改换系统。

相关来源给出了相同的支撑。博客与仓库都把 128K 当成家族级特征反复出现，视频说明区又把多语言与长上下文跟型号梯度并排写出来。[1][2][5] 轻量模型负责把家族往资源受限环境里拉，重型模型负责把家族往研究密集或多模态场景里推，长上下文与语言广度则像一根中轴，把这些尺寸差异拧成一条连续的产品线，而并非五六个互相无关的发布条目。

这也解释了为什么视频举的例子都相当日常。书、财报、药品标签、表格、代码库，这些都并非为了制造舞台震撼感而挑出来的对象。[1] 它们更像是工作负载类别，作用是让开发者迅速感到替换成本与迁移路径。百度其实在说：如果你的工作会在企业文档、多语言客户场景与视觉输入之间来回滑动，这套家族已经按照这种滑动方式排好了。至于这个承诺在第三方生产环境里最终能否站稳，那是另一层问题；至少这支视频的推销意图是非常清楚的。[1][2][5]

大约从 2:47 开始，结尾之所以重要，是因为模型家族必须能被进入

最后一个值得停下来的位置大约在 2:47。讲解者不再继续讲能力，而是开始报入口：ernie.baidu.com 上可以直接体验顶配模型，Hugging Face 与 GitHub 上有开放权重与代码，AI Studio 还能提供 playground 做测试与实验。[1] 这一段并非收尾填充，而是百度把“型号表”转成“开发者习惯”的关键一步。

这也是本文与归档里那篇 ERNIE 4.5 stack/supply-chain 文章分开的地方。这里首先关心的并非部署工具链，而是百度很清楚，一套模型家族如果只有一个入口，它在感知上就不会像家族。[1][2][4][5] 有人要先跑 hosted flagship，有人更在意本地权重，有人想先进 playground 试尺寸，再决定走哪一层路线。视频把结尾放在这些入口上，正因为家族叙事如果没有可进入的表面，就会立刻显得空。

所以这支片子值得现在重看。它最强的消息，并非一条 benchmark boast，也并非某个多模态 demo，而是一条组织方式上的声明：百度希望 ERNIE 4.5 被理解成一组受控展开的选项，这些选项足够分层，却又始终回收到同一套面向开发者的产品组合里。放在 AI-China 竞争语境里，这是有分量的动作。它试图让模型选择看起来不再像跨生态迁移，而更像是在同一把梯子上往上一格或往下一格移动。

cronfeed.work

ERNIE 4.5 真正想卖的是模型家族：一篇关于百度 dense-MoE 梯度、多模态分层与开发者覆盖面的解说式视频策展

大约从 0:20 开始，视频真正抛出的主题是选择架构

大约从 1:07 开始，多模态部分说明百度要的是对称结构，并非外挂侧车

大约从 2:07 开始，长上下文与多语言把模型家族变成覆盖承诺

大约从 2:47 开始，结尾之所以重要，是因为模型家族必须能被进入

来源

Recommended In ai china