把时间锚定在 2026-04-28 UTC,理解百度 2026 年 4 月 15 日 发布的 ERNIE-Image,更合适的入口落在封装方式,而不在又一轮图像样张竞赛。这个发布真正显出 ai-china 意义的地方,是百度把一条原本完全可以停留在旗舰闭环里的视觉生成能力,往外接成了开放创作表面:公开权重、公开快速上手路径、公开工作流说明,服务对象也写得很直白,指向海报、漫画、多面板布局,以及各类文字密度更高的图像任务。[1][2][3]
这一点很关键,因为官方材料写得相当务实。百度把 ERNIE-Image 定义为一款开放文生图模型,底层是单流 Diffusion Transformer,参数规模 8B,外面再接一层轻量 Prompt Enhancer,把短提示词扩展成更完整的结构化描述。[1][2][3] 配套的 ERNIE-Image-Turbo 又把执行层写得更具体:基础版围绕 50 步推理 来组织,Turbo 版则压到 8 步,直接把“更快生成”做成产品形态。[2][3] 这已经超出“我们也有新图像模型”这类表述能够覆盖的范围,更像一份关于视觉入口如何开放出去的发布说明。
图片说明:题图采用 Wikimedia Commons 上百度上地总部的真实建筑照片。它放在这里是合适的,因为本文讨论的是平台动作,焦点并非单张生成图的炫技。比起任何合成拼贴,这栋楼更能把文章的判断落回公司层面的结构变化。[5]
真正的突破口,在文字渲染与结构化版式,不在泛化审美口号
这次发布里最值得看的部分,是百度把 ERNIE-Image 的强项摆在什么位置。官方仓库和模型卡持续强调 text rendering、instruction following 与 structured generation,语气重心并不落在空泛的“更电影感”或“更有质感”上。[2][3] 百度更像是在提醒开发者,应该把这套模型放进另一类任务里理解:图像质量的判断标准,更多取决于文字有没有摆对、对象关系有没有摆对、版式组织有没有收束,并且不把第一眼的华丽程度当成唯一标准。[2][3]
这是一条收得很窄、也更有用的切口。海报、信息图、UI 类图像、漫画、分镜,这些任务常常会暴露图像模型的老问题:长文本断裂、面板顺序散掉、多对象指令关系滑移。ERNIE-Image 的发布语言,说明百度很清楚这一点,也愿意围绕这条线去竞争。[1][2][3] 放回中国 AI 栈的语境里,这比反复去争“谁是全场最强图片模型”更有实际意义。
双语 benchmark 表格把同一条判断又往前推了一步。官方 GENEval 表里,ERNIE-Image(w/o PE) 的 overall 0.8856 高于 Qwen-Image 的 0.8683,同时在 counting 子项上又落在 Qwen 后面。[2][3] 到了 OneIG-EN 与 OneIG-ZH,ERNIE-Image 维持在最靠前那一层,尤其在文字与 reasoning 压力更重的列里表现稳,但整张表又没有形成对所有对手的全面压制。[2][3] 再看 LongTextBench,最佳配置的 0.9733 已经足够说明问题,同时仍然低于 Seedream 4.5 的 0.9882。[2][3] 这些数字连在一起,更能支撑一条克制判断:百度争到的优势,主要落在文字密集、版式敏感、结构化输出更强依赖的工作表面上,并非一口气拿下所有图像基准。
开放封装本身,比发布时刻的热闹更重要
第二个值得盯住的点,是这次发布把部署门槛往下压到了什么程度。官方 Hugging Face 模型卡明确写到,ERNIE-Image 可以跑在 24G VRAM 的消费级 GPU 上。[3] 官方仓库与模型卡又一起给出了 Diffusers 和 SGLang 的实际接入路径,以及比较明确的推荐参数。[2][3] 从“百度有一项有意思的图像研究”到“个人开发者或小团队可以自己试、自己接、自己改”,中间那道坎因此被压低了很多。
顺着这个角度看,这篇文章自然会落进 ai-china。中国 AI 公司近一年越来越需要回答同一个问题:哪些能力留在托管旗舰层,哪些能力要主动放出去,形成开发者习惯。ERNIE-Image 给出的答案相当明确。百度没有只发一篇新闻稿,它同时发了开放权重、公开仓库、公开 benchmark 表、公开推理说明。[1][2][3] 由这些材料往前推,可以看到百度想在高层 ERNIE 品牌之下,再铺一条面向创作者的视觉入口,尤其面向那些设计、文字与结构比单次写实惊艳更重要的工作流。
周边生态也在把这条路线坐实。官方仓库已经把 ComfyUI 支持、AI-Toolkit 微调、以及 Unsloth 的 GGUF 适配列进了外部资源栏。[2] 这种写法本身就是信号。它说明百度看待 ERNIE-Image 的方式,已经从封闭展示柜转向一块希望继续进入工具链、模板与下游改造里的公开表面。
放在 ERNIE 5.0 之下,这次发布会更容易看懂
百度更大的 ERNIE 叙事,也能解释为什么这次图像线会以这种方式往外发。百度在 2026 年 2 月 6 日 关于 ERNIE 5.0 的官方文章里,把它定义成一款 2.4 万亿参数 的原生全模态基础模型,目标是把文本、图像、视频、音频放进同一套自回归框架里,并通过共享符号空间与弹性部署形态来组织整套能力。[4] 这就是百度在旗舰层上给出的总叙事。
ERNIE-Image 本身当然没有被写成“缩小版 ERNIE 5.0”。可从公开证据往回看,它和那套语法是接得上的。旗舰层里,百度讲的是原生全模态;开放层里,百度把其中一条图像创作路线变成开发者可以下载、运行、比较的对象。[1][2][3][4] 这是一条从材料中推出的判断,百度原文没有直接写出这句话。只是它和公开动作咬合得很紧:上层是统一多模态野心,下层是更可检验、更可接入的开放图像入口。
这点很重要,因为很多全模态叙事最终都卡在采用层。它们什么都讲,真正能给开发者上手的东西却很少。ERNIE-Image 走的是另一条路:把百度多模态议程中的一段能力,具体化成权重、步数、提示词处理、硬件条件与明确输出场景。[1][2][3]
基准成绩有分量,边界也要一起留在画面里
对这次发布的阅读仍然要保持边界感。百度在发布语言里写到,ERNIE-Image 在开源权重模型里达到领先表现,官方表格也足够支撑“它很有竞争力”这条判断。[1][2][3] 只是整套比较面并不完全同质。部分结果开启了 Prompt Enhancer,部分没有;不同 benchmark 对文字保真、结构推理、对象计数、风格多样性各自赋予的权重也不一样;Turbo 版本身就在用更强的速度导向重写部署形态。[2][3]
因此,更扎实的说法仍然是:ERNIE-Image 代表的是一条开放创作表面,在文字渲染、结构化输出与可部署性上显出了很清楚的强项,并非一条已经把全部开放图像排行榜彻底盖住的终局结论。[2][3] 这样的判断反而更强,因为它和证据形状一致,也和这次发布真正想争夺的工作表面一致。
接下来该看什么
第一,看百度是否继续把开放图像线与外围工具链同步推进。[2][3] 如果 Diffusers、SGLang、ComfyUI 与微调路径持续更新,这块创作表面的判断会更扎实。
第二,看 ERNIE-Image 是否越来越多地进入图像里的文字本身就是产品的工作流:广告创意、演示文稿、界面草图、带标签的教育图、漫画,以及各类商业图形。[1][2][3] 这正是它现在最有辨识度的一层。
第三,看这条开放入口和百度更高层的 ERNIE 平台叙事之间会拉开多大距离。[1][4] 如果百度继续把旗舰多模态研究拆成更小、更公开的创作者工具,它会越来越像一套有多级入口的栈;若开放线停在展示位置,而托管层继续独自加速,ERNIE-Image 读起来就会更像一次精致 showcase。
来源
- ERNIE Blog,《ERNIE-Image 文生图模型发布》(2026 年 4 月 15 日官方发布说明)。
- baidu/ERNIE-Image GitHub README(官方仓库;版本形态、基准表、Diffusers / SGLang 部署路径,以及周边生态链接)。
- baidu/ERNIE-Image Hugging Face 模型卡(24G VRAM 部署说明、推荐参数、基准表与快速上手路径)。
- ERNIE Blog,《文心 5.0 (ERNIE 5.0):2.4 万亿参数的原生全模态大模型》(2026 年 2 月 6 日官方多模态架构说明)。
- Wikimedia Commons, "File:Baidu headquarters at Shangdi (20220509112427).jpg"(本文题图来源页)。