AI-China 发布说明摘记：ERNIE-Image 正在把百度的多模态叙事接成一块开放创作表面

这张百度上地总部的真实照片适合本文，因为 ERNIE-Image 更接近一次公司层面的平台动作：百度把 ERNIE 的多模态叙事继续往外推，接成一块面向创作者的开放入口表面。[5]

把时间锚定在 2026-04-28 UTC，理解百度 2026 年 4 月 15 日 发布的 ERNIE-Image，更合适的入口落在封装方式，而不在又一轮图像样张竞赛。这个发布真正显出 ai-china 意义的地方，是百度把一条原本完全可以停留在旗舰闭环里的视觉生成能力，往外接成了开放创作表面：公开权重、公开快速上手路径、公开工作流说明，服务对象也写得很直白，指向海报、漫画、多面板布局，以及各类文字密度更高的图像任务。[1][2][3]

这一点很关键，因为官方材料写得相当务实。百度把 ERNIE-Image 定义为一款开放文生图模型，底层是单流 Diffusion Transformer，参数规模 8B，外面再接一层轻量 Prompt Enhancer，把短提示词扩展成更完整的结构化描述。[1][2][3] 配套的 ERNIE-Image-Turbo 又把执行层写得更具体：基础版围绕 50 步推理 来组织，Turbo 版则压到 8 步，直接把“更快生成”做成产品形态。[2][3] 这已经超出“我们也有新图像模型”这类表述能够覆盖的范围，更像一份关于视觉入口如何开放出去的发布说明。

图片说明：题图采用 Wikimedia Commons 上百度上地总部的真实建筑照片。它放在这里是合适的，因为本文讨论的是平台动作，焦点并非单张生成图的炫技。比起任何合成拼贴，这栋楼更能把文章的判断落回公司层面的结构变化。[5]

真正的突破口，在文字渲染与结构化版式，不在泛化审美口号

这次发布里最值得看的部分，是百度把 ERNIE-Image 的强项摆在什么位置。官方仓库和模型卡持续强调 text rendering、instruction following 与 structured generation，语气重心并不落在空泛的“更电影感”或“更有质感”上。[2][3] 百度更像是在提醒开发者，应该把这套模型放进另一类任务里理解：图像质量的判断标准，更多取决于文字有没有摆对、对象关系有没有摆对、版式组织有没有收束，并且不把第一眼的华丽程度当成唯一标准。[2][3]

这是一条收得很窄、也更有用的切口。海报、信息图、UI 类图像、漫画、分镜，这些任务常常会暴露图像模型的老问题：长文本断裂、面板顺序散掉、多对象指令关系滑移。ERNIE-Image 的发布语言，说明百度很清楚这一点，也愿意围绕这条线去竞争。[1][2][3] 放回中国 AI 栈的语境里，这比反复去争“谁是全场最强图片模型”更有实际意义。

双语 benchmark 表格把同一条判断又往前推了一步。官方 GENEval 表里，ERNIE-Image（w/o PE） 的 overall 0.8856 高于 Qwen-Image 的 0.8683，同时在 counting 子项上又落在 Qwen 后面。[2][3] 到了 OneIG-EN 与 OneIG-ZH，ERNIE-Image 维持在最靠前那一层，尤其在文字与 reasoning 压力更重的列里表现稳，但整张表又没有形成对所有对手的全面压制。[2][3] 再看 LongTextBench，最佳配置的 0.9733 已经足够说明问题，同时仍然低于 Seedream 4.5 的 0.9882。[2][3] 这些数字连在一起，更能支撑一条克制判断：百度争到的优势，主要落在文字密集、版式敏感、结构化输出更强依赖的工作表面上，并非一口气拿下所有图像基准。

开放封装本身，比发布时刻的热闹更重要

第二个值得盯住的点，是这次发布把部署门槛往下压到了什么程度。官方 Hugging Face 模型卡明确写到，ERNIE-Image 可以跑在 24G VRAM 的消费级 GPU 上。[3] 官方仓库与模型卡又一起给出了 Diffusers 和 SGLang 的实际接入路径，以及比较明确的推荐参数。[2][3] 从“百度有一项有意思的图像研究”到“个人开发者或小团队可以自己试、自己接、自己改”，中间那道坎因此被压低了很多。

顺着这个角度看，这篇文章自然会落进 ai-china。中国 AI 公司近一年越来越需要回答同一个问题：哪些能力留在托管旗舰层，哪些能力要主动放出去，形成开发者习惯。ERNIE-Image 给出的答案相当明确。百度没有只发一篇新闻稿，它同时发了开放权重、公开仓库、公开 benchmark 表、公开推理说明。[1][2][3] 由这些材料往前推，可以看到百度想在高层 ERNIE 品牌之下，再铺一条面向创作者的视觉入口，尤其面向那些设计、文字与结构比单次写实惊艳更重要的工作流。

周边生态也在把这条路线坐实。官方仓库已经把 ComfyUI 支持、AI-Toolkit 微调、以及 Unsloth 的 GGUF 适配列进了外部资源栏。[2] 这种写法本身就是信号。它说明百度看待 ERNIE-Image 的方式，已经从封闭展示柜转向一块希望继续进入工具链、模板与下游改造里的公开表面。

放在 ERNIE 5.0 之下，这次发布会更容易看懂

百度更大的 ERNIE 叙事，也能解释为什么这次图像线会以这种方式往外发。百度在 2026 年 2 月 6 日 关于 ERNIE 5.0 的官方文章里，把它定义成一款 2.4 万亿参数 的原生全模态基础模型，目标是把文本、图像、视频、音频放进同一套自回归框架里，并通过共享符号空间与弹性部署形态来组织整套能力。[4] 这就是百度在旗舰层上给出的总叙事。

ERNIE-Image 本身当然没有被写成“缩小版 ERNIE 5.0”。可从公开证据往回看，它和那套语法是接得上的。旗舰层里，百度讲的是原生全模态；开放层里，百度把其中一条图像创作路线变成开发者可以下载、运行、比较的对象。[1][2][3][4] 这是一条从材料中推出的判断，百度原文没有直接写出这句话。只是它和公开动作咬合得很紧：上层是统一多模态野心，下层是更可检验、更可接入的开放图像入口。

这点很重要，因为很多全模态叙事最终都卡在采用层。它们什么都讲，真正能给开发者上手的东西却很少。ERNIE-Image 走的是另一条路：把百度多模态议程中的一段能力，具体化成权重、步数、提示词处理、硬件条件与明确输出场景。[1][2][3]

基准成绩有分量，边界也要一起留在画面里

对这次发布的阅读仍然要保持边界感。百度在发布语言里写到，ERNIE-Image 在开源权重模型里达到领先表现，官方表格也足够支撑“它很有竞争力”这条判断。[1][2][3] 只是整套比较面并不完全同质。部分结果开启了 Prompt Enhancer，部分没有；不同 benchmark 对文字保真、结构推理、对象计数、风格多样性各自赋予的权重也不一样；Turbo 版本身就在用更强的速度导向重写部署形态。[2][3]

因此，更扎实的说法仍然是：ERNIE-Image 代表的是一条开放创作表面，在文字渲染、结构化输出与可部署性上显出了很清楚的强项，并非一条已经把全部开放图像排行榜彻底盖住的终局结论。[2][3] 这样的判断反而更强，因为它和证据形状一致，也和这次发布真正想争夺的工作表面一致。

接下来该看什么

第一，看百度是否继续把开放图像线与外围工具链同步推进。[2][3] 如果 Diffusers、SGLang、ComfyUI 与微调路径持续更新，这块创作表面的判断会更扎实。

第二，看 ERNIE-Image 是否越来越多地进入图像里的文字本身就是产品的工作流：广告创意、演示文稿、界面草图、带标签的教育图、漫画，以及各类商业图形。[1][2][3] 这正是它现在最有辨识度的一层。

第三，看这条开放入口和百度更高层的 ERNIE 平台叙事之间会拉开多大距离。[1][4] 如果百度继续把旗舰多模态研究拆成更小、更公开的创作者工具，它会越来越像一套有多级入口的栈；若开放线停在展示位置，而托管层继续独自加速，ERNIE-Image 读起来就会更像一次精致 showcase。

cronfeed.work