截至 2026-03-31 UTC,观看百度这支时长 10 分 43 秒 的 《Introducing ERNIE X1.1》,最有效的入口,是先把它从“又一场推理模型胜利巡礼”的框架里拿开。[1] 这支视频当然保留了前沿发布常见的要素:它发生在 WAVE SUMMIT 2025,谈到更强的推理能力,也把 X1.1 放到头部模型竞争的语境里。可它真正想卖出的东西更窄,也更适合商业化语境。百度真正展示的是:当一个推理模型更容易被驾驭时,它才更有价值。这里的“更容易被驾驭”,落在更少幻觉、更紧的格式服从、更扎实的 agent 与工具调用,以及更能守住用户要求的短答形态上。[1][2]
把视频和书面发布材料并在一起看,这个判断会更扎实。百度 2025 年 9 月 9 日 的发布稿写得相当直接:ERNIE X1.1 在 事实性、指令服从 与 agent 能力 上都有提升,并且已经部署到面向企业客户与开发者的 千帆 MaaS 平台上。[2] 这是一种很具体的商业表达。百度并不只是在说“这个模型会推理”,它同时在说“这个模型的行为已经整齐到可以进入真实的开发者表面”。
前史也很关键。到了 2025 年 6 月,百度已经把 ERNIE 4.5 作为一个十变体的多模态家族以 Apache 2.0 方式开源;同一天,千帆社区又把这一动作写成“开源发布”和“托管 API 服务同步开放”的同一件事。[3][4] 把这些材料和 X1.1 视频放到同一条线上,我的判断是:百度希望读者把 X1.1 看成一条双轨策略里的下一步,一边继续放大开发者入口,一边把企业流量尽量留在百度自己的托管表面之内。[2][3][4]
配图说明:题图使用的是 Wikimedia Commons 上北京百度科技园二期的真实照片。这里适合用实景图,因为本文讨论的是运营可信度与平台表面,而并非一张推理内部结构的生成示意图。[5]
到 0:55 左右,从 ERNIE 4.5 过渡到 X1.1,真正讲的是一套栈,而并非一个孤立英雄模型
视频里最先值得留意的一步,出现在正式 demo 之前。到 0:55 左右,两位讲者先回顾,百度大约三个月前已经开源 ERNIE 4.5,随后再说这一次要把重心从 vision-language 模型转到 reasoning 模型上。[1] 这段顺序比表面上更重要。它让观众明白,X1.1 并非一个凭空出现的新偶像,它是被放到一个已经展开、已经分发出去的模型家族之上来理解的。[1][3]
ERNIE 4.5 的官方博客把这一层写得很具体。百度把它描述成一个十模型组成的多模态家族,覆盖不同规模,也覆盖 thinking 与 non-thinking 模式,同时配套开发工具链,并以 Apache 2.0 方式开放出去。[3] 千帆社区的文章又把同一件事继续翻译成平台语言:开源权重释放之外,千帆侧的 API 服务也同步开放。[4] 这样回看视频开头,那段回顾就不再只是时间线,而更像一种包装信号。百度是在告诉开发者,开源入口与托管入口本来就在同一套故事里。
这在 AI-China 语境里很重要。许多发布仍然要求观众先去崇拜一个“单点最强”的模型对象,这支视频却更强调模型家族、服务平台与开发工作流之间的连续性。[1][2][3][4] 顺着这个角度看,我的判断是,百度想让 X1.1 看起来像一条已有栈上的推理升级,而并非一个只靠新鲜感成立的研究样品。
到 1:50 左右,视频真正要强调的并非抽象智力,而是行为纪律
最清楚的一句话,出现在 1:50 左右。讲者先谈,推理模型当然强,但因为链路更长,往往更容易产生幻觉;随后又说,X1.1 的幻觉更少、指令服从更准确,在 agent 任务与工具调用上也更扎实。[1] 这组表述比普通 benchmark 语言更能暴露产品意图,因为每一项都对应一种真实部署里的抱怨:事实不稳、格式不守、工具步骤容易走偏。[1]
百度的书面发布稿把这层意思写得更直白。稿件给出三项提升:事实性提升 34.8%、指令服从提升 12.5%、agent 能力提升 9.6%,同时说明 X1.1 已进入千帆,面向企业客户与开发者开放。[2] 这些并非偏消费者叙事的指标,它们更像是在回答一个部署问题:这个模型的行为,是否已经规整到能进入应用流程。
也正因为这样,用“可管理性”来概括它,比“推理能力”更贴近视频真正的重点。视频最重要的分析负载,是百度试图把推理模型的进步翻译成更扎实定的界面行为。[1][2] 一个模型即使很聪明,只要格式乱、细节飘、工具步骤容易走偏,进入生产就仍然会制造额外摩擦。能守住约束的模型,才更容易被接到真实系统里。
到 5:40 左右,PRD 演示才是百度真正想让开发者买单的部分
视频中段把这个判断落到了实处。到 5:40 左右,一位讲者开始演示一个 PRD 场景,请 ERNIE 生成产品需求文档,同时加上多重约束:要有背景、目标、目标用户、核心功能、至少两条 user story、固定格式,而且总长度不能超过 600 词。[1] 随后的点评也完全沿着这个方向展开:模型是否把各个段落写全、是否交出 user story、是否守住格式、是否没有多余废话、是否控制在篇幅之内。[1]
这并非一段炫技式 frontier demo,而是一段关于服从合同的 demo。观看快感不来自“它太有才华”,而来自“它把约束守住了”。讲者甚至特意强调结构与可扫读性:标题清楚,列表干净,不用额外清洗就已经能进入工作流。[1] 真正被展示出来的,并非文学天赋,而是草稿纪律。
把这一段和百度其他材料放在一起看,意思会更明确。ERNIE 4.5 已被写成一个开放模型家族,千帆又被写成托管 API 的平台表面,那么这段 PRD 演示就不再只是一个办公室小例子。[3][4] 它更像是对企业为什么愿意接入模型的一次压缩说明:如果模型能稳定守住段落顺序、字数预算与输出形状,围绕它搭建的系统就会少掉很多后处理成本。
到 7:30 左右,那段 401(k) 例子真正讨论的是压缩回答与控制语气
第二段主要 demo 从 7:30 左右开始,表面看只是一个轻量的个人理财场景。讲者用朋友的 401(k) 选择做例子,请 ERNIE 给出一个直截了当、尽量简短的答案。[1] 这一段真正重要的,并非财务内容本身,而是讲者公开表达了自己在乎什么:更短、更直、更贴合提示词里的语气要求。
讲解里最看重的也正是这些。她说 X1.1 先把用户情况收拢起来,再把基金选择和税务选择分开处理,最后给出一个短、清、可直接复述的结论,同时还保留了用户输入里那点轻微的玩笑语气。[1] 从另一层看,模型在这里赢得好评,并非因为它“说得更多”,而是因为它知道在哪个位置停下来、用什么方式停下来。
这和整场发布的商业方向是连在一起的。如果百度希望把 X1.1 接到千帆与企业开发者场景里,那么一个推理模型的价值,就不仅仅在于会不会想得更深,也在于会不会在合适的地方停住。[2][4] 答案太长、保留过多、风格跑偏,在很多工作流里和答错一样,都会形成成本。顺着这段 demo 往下看,我的判断是:百度已经意识到这一点,它要卖的并非单纯的 benchmark 光环,而是一种更容易被挑选、被接线、被放进真实界面的行为轮廓。[1][2]
如果现在重看,最该留意什么
重看这支视频时,最值得留意的是讲者究竟在反复赞美什么。她们没有把注意力长期停在一条夸张的数学证明上,也没有拿一张巨大 benchmark 图做压轴。她们反复回到的是:更少幻觉、更紧指令服从、更扎实的 agent 执行、更短的回答、更清楚的结构、更干净的格式、更合适的语气。[1][2] 这组重复,才是视频真正的内容。
也正因为这样,这支视频值得单独做一次带注释观看。百度借 X1.1 想说明的一件事是,AI-China 下一层竞争,已经不只落在“谁更会推理”上,还落在“谁能让推理模型在真实界面里更容易被理解、更容易被路由、更容易被卖出去”上。能守住合同的模型,才更容易进入商业系统。
来源
- Baidu Inc.,《Introducing ERNIE X1.1》,官方 YouTube 视频,发布于 2025 年 9 月 10 日。
- Baidu,《Baidu Unveils Reasoning Model ERNIE X1.1 with Upgrades in Key Capabilities》(2025 年 9 月 9 日;事实性、指令服从、agent 指标与千帆部署信息)。
- ERNIE Blog,《Announcing the Open Source Release of the ERNIE 4.5 Model Family》(2025 年 6 月 30 日;十模型多模态家族、Apache 2.0 与开发工具链)。
- 百度智能云千帆社区,《文心4.5系列正式开源!千帆同步开放模型API服务》(2025 年 6 月 30 日;ERNIE 4.5 开源与千帆 API 服务同步开放)。
- Wikimedia Commons,《File:Baidu Technology Park at ZPark Phase II (20220502113543).jpg》。