把时间锚定在 2026-04-30 UTC,百度这篇关于 ERNIE-5.1-Preview 的一分钟短文,第一眼看上去像一条标准的打榜捷报。文中写到,这个模型在最新 LMArena Text 榜单里拿到国内第一全球第十三,同时又给出数学、法律与政府、商业与金融运营、软件与信息技术服务几个垂类名次。[1][2] 真正更值得盯住的信号,落在下一句。百度写得很直:ERNIE-5.1-Preview 继承 ERNIE 5.0 的预训练底座,同时把总参数压到约 1/3,激活参数压到约 1/2,同规模模型里的预训练成本压到约 6%。[1][2]

这就把整条发布信息的重心改写了。它的标题并未只是在说“百度又往榜单上走了一步”。更重要的意思是,百度正在尝试从 ERNIE 5.0 这块巨型底座里,切出一条更便宜的文本优先通道。榜单负责提供公开验证,压缩数字负责告诉开发者和买方,真正需要记住的到底是什么。[1][2]

图片说明:题图采用 Wikimedia Commons 上的百度科技园真实照片。它适合本文,因为这里讨论的是产品几何和部署形状,而并非一张风格化 AI 视觉。真实园区场景更能把这条机构性交付线索讲清楚。[7]

榜单有意义,但它只在正确的评测边界里有意义

LMArena 并非没有价值,它也并非一张包打天下的能力成绩单。Arena 论文把这个体系定义成一套基于人类偏好的两两比较评测平台,并非一套针对所有生产工作流的受控工程基准。[6] 因而,ERNIE-5.1-Preview 在文本榜上的位置,适合被理解成一般回答偏好和若干写作场景表现的信号,却不足以单独证明它已经在长时程智能体、工具调用、编码流水线或全模态任务上全面胜出。[1][2][6]

这一点之所以要说清,是因为百度这篇公告极短。它先给市场看得见的输出:总榜名次、分类名次,然后才给出压缩数字。[1][2] 顺着这个次序往下读,我的判断会落到一点:百度知道,一张榜单截图传播得比一篇系统论文更快;百度也知道,2026 年更难的商业问题已经不再是“能否演示一个前沿模型”,而是“能否做出一条可以被反复部署、而且部署得起的模型形状”。名次负责吸引注意,成本形状负责把采用逻辑讲得可见。

ERNIE 5.0 才是真正的基线,这也是 5.1 值得看的原因

若把 2026 年 4 月 30 日 的短文单独拿出来,它的信息量其实有限。把它放回 2026 年 2 月 6 日 的 ERNIE 5.0 材料里,意思才会完整。那一组材料里,百度把 ERNIE 5.0 写成一个 2.4 万亿参数 的原生全模态底座,文本、图像、视频、音频被放进同一套自回归框架里训练。[3][4][5] 公司在那时尤其强调三件事:跨模态共享 token 空间、超稀疏 MoE 里的模态无关路由,以及一种能够让超网络派生出多种子配置的 elastic training 机制。[3][4][5]

最后这一点,恰好就是今天 5.1 的桥。若 ERNIE 5.0 只是一个巨大的全模态声量工程,那么 5.1 这则公告会显得像一条略微尴尬的侧向分支。它现在没有那种感觉,原因在于百度先前已经把效率逻辑写在 5.0 里了。总参数压到三分之一、激活参数压到一半,这种下游形状,本来就是 elastic、once-for-all 叙事承诺要做出来的东西。[1][3][4][5]

因此,更有用的读法并非“百度又做出一个更小但还不错的模型”,而是“百度开始把 ERNIE 5.0 的部署几何真正变现出来”。巨型全模态底座负责建立容量,较小的 preview 负责证明,这块底座可以被切成一条文本优先的工作通道,而且这条通道在公开的人类偏好评测里仍然站得住。[1][3][4][5]

新的训练措辞,说明百度希望下一轮竞争落在什么位置

4 月 30 日这篇短文里还有两组词值得记住,哪怕百度没有在文中展开细讲:分离式全异步强化学习,以及规模化智能体后训练。[1][2] 这两组说法并非随手点缀。它们在暗示百度希望外界如何理解 ERNIE-5.1-Preview:它不只是一份被压缩过的预训练产物,同时也是一条专门朝文本推理、知识工作、创作任务和操作性任务去收紧过的模型形状。

这又和 5.0 报告接上了。百度当时已经描述过一套针对高难度推理与智能体工具使用对齐而设计的 RL 管线,里面包括回放缓冲和 hint-based 机制,用来稳定稀疏奖励任务上的学习过程。[3][5] 现在这篇 5.1 公告,更像是那条工作在线上的一次公开产品化延续。顺着这些措辞往下看,我的判断是,百度正在把部分公开重心,从“看我们的全模态统一底座有多完整”,挪到“看我们怎样以更低成本,把这块底座变成一条可用的文本与智能体模型通道”。[1][3][5]

这个移动是合理的。2 月时,全模态雄心给了百度一条前沿叙事。[3][4][5] 到了 4 月,文本推理、垂直写作和智能体后训练,才更像企业使用和重复工作负载更容易沉淀下来的表层。若一条更便宜的 preview 仍能在广义人类偏好评测里站住脚,它就比一个价值一部分落在架构理想、一部分落在展示声量上的最大系统,更容易被接进真实产品里。[1][2][6]

公告之后,更值得继续看的三件事

真正重要的跟进,不在那张庆祝截图里。

第一,看百度会不会继续把 ERNIE-5.1-Preview 的部署故事补完整,而不让它停在一条打榜公告上。[1][2] 若后续能看到更明确的推理成本、时延区间或产品落点,这条“压缩红利”判断会更扎实。

第二,看这些新的 RL 和智能体后训练措辞,会不会继续落到编码、搜索或工具调用工作流的具体展示里。[1][3][5] 若没有第二层证据,这些训练说法仍然停在有意思但偏抽象的位置。

第三,把评测边界始终看清。若后续宣传继续主要依赖 LMArena 文本榜名次,就把这个信号当成方向性线索,而不要把它误读成穷尽式证明。[6] 若百度接下来能把这条更便宜的文本通道,与更清楚的智能体和工作负载证据压在一起,ERNIE-5.1-Preview 就会越过一日榜单故事,变成 ERNIE 5.0 巨型全模态底座首次被切出商业锐度的一次公开证明。

来源

  1. ERNIE Blog, "ERNIE-5.1-Preview Tops LMArena Text Leaderboard as No.1 Chinese Model!" (April 30, 2026).
  2. ERNIE Blog, "文心大模型5.1 Preview 荣登 LMArena 文本榜国内第一!" (Chinese first-hand release note, April 30, 2026).
  3. ERNIE Blog, "ERNIE 5.0: A 2.4 Trillion-Parameter Unified Multimodal Foundation Model" (February 6, 2026).
  4. ERNIE Blog, "文心 5.0 (ERNIE 5.0):2.4 万亿参数的原生全模态大模型" (Chinese first-hand technical release note, February 6, 2026).
  5. Haifeng Wang and colleagues, "ERNIE 5.0 Technical Report" (arXiv:2602.04705, submitted February 4, 2026).
  6. LMSYS Org and collaborators, "Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference" (arXiv:2403.04132).
  7. Wikimedia Commons, "File:Baidu Technology Park at ZPark Phase II (20220502113645).jpg" (source page for the cover photograph used in this article).