截至 2026-05-07 UTC,理解百度 ERNIE-Image 这次发布,更审慎的入口落在评测边界,而不落在某一条总榜名次上。2026 年 4 月 这次开源动作之所以值得看,在于百度把图像模型比较里常被压平的几个条件一起公开了出来:Prompt Enhancer 开启与关闭50 step 全量生成与 8 step turbo 生成、中英文长文本渲染,以及模型可运行在 24G VRAM 消费级显卡上的部署主张。[1][2][3] 由此,ERNIE-Image 更像一套可以被拆开检查的系统,而并非一个只剩“领先”口号的黑箱名词。

公开材料给出的轮廓相当清楚。百度在仓库 README 里把 ERNIE-Image 写成一款基于 单流 Diffusion Transformer 的开放文生图模型,核心骨干是 8B DiT 参数,同时配有一个轻量级 Prompt Enhancer,负责把较短的用户提示词扩展成更完整的结构化描述。[1] 同一份 README 还把两个公开版本分得很开:ERNIE-Image50 steps,强调更强的通用能力与 instruction fidelity;ERNIE-Image-Turbo8 steps,强调速度与美学表现。[1] Hugging Face 的 diffusers 文档又把运行边界压实了一层:Prompt Enhancer 默认开启,因为它有助于提升输出质量;同一页也明确提醒,它会带来 instruction-following accuracy 的回落,因此用户若想保留原始提示词路径,可以把 use_pe 设为 False。[2]

这组信息连在一起,构成了这篇文章最关心的信号。百度并没有只交出一张密封的排行榜结论,它把结果成立所依赖的几个旋钮一并放到了台面上。在 ai-china 这个话题里,很多比较仍旧习惯把不同产品表面、不同推理路径、不同生成预算压成一条好看曲线;ERNIE-Image 这次公开的价值,恰恰在于它让这些差异继续留在视野里。

图片说明:题图采用 Wikimedia Commons 上的百度上地总部真实照片。这个选择合适,是因为本文真正讨论的是制度化公开动作。重点不在几张脱离上下文的生成样张,而在百度把一套开放图像栈与它的比较边界一起放出来。[5]

榜单上的“领先”需要和评测包络一起看

先看最重要的一点:ERNIE-Image 并没有讲述一条放之四海皆准的第一名故事。[1]

GenEval 里,仓库给出的结果是 ERNIE-Image (w/o PE) 0.8856 overall,高于 ERNIE-Image (w/ PE)0.8728,也高于 Qwen-Image0.8683。[1] 这一组数字重要,因为 GenEval 更看重组合式指令理解,覆盖 object count、color、position、attribute binding 这些类别。在这套基准里,Prompt Enhancer 没有呈现“只增不减”的线性效果。它让 counting 之类的子项往上抬了一截,也让 attribute binding 之类的子项往下掉了一段,最后整体分数反而低于 no-PE 路径。[1]

文本更重、版式更重的测试集里,画风随之变化。到了 OneIG-ENERNIE-Image (w/ PE) 给出 0.5750 overall,高于 ERNIE-Image (w/o PE)0.5537ERNIE-Image-Turbo (w/ PE) 也高于自己的 no-PE 版本。[1] OneIG-ZH 里同样如此,ERNIE-Image (w/ PE)0.5543,而 ERNIE-Image (w/o PE)0.5208。[1] 再往下看 LongTextBench,全量模型在开启 PE 的状态下,英文得到 0.9804,中文得到 0.9661,两边都高于 no-PE 的同档结果。[1]

因此,这次发布更适合被读成一则 eval-boundary story。若一个团队的问题写成“ERNIE-Image 和 Qwen-Image 谁更强”,真正严谨的回答需要把 workload、prompt path、step budget 一起带上来。[1][2] 仓库自己的表已经把这件事说明白了:当任务奖励的是结构化扩写和长文本排版,PE 打开的路径会更有优势;当任务奖励的是原始指令的直接保真,no-PE 的路径会显得更干净。ERNIE-Image 这次公开真正有价值的地方,正在于这些差异没有被抹平。

Prompt Enhancer 属于系统本体,并非可有可无的装饰层

Prompt Enhancer 在这套系统里,地位更接近一层模型化组件,而并非一个无足轻重的润色插件。

diffusers 文档把这层关系写得很直接。页面说明 Prompt Enhancer 默认开启,目的是提升输出质量;同一页也提醒,它会压低 instruction-following accuracy,因此用户若想保留原始提示词路径,可以把 use_pe=False 明确写出来。[2] 文档还继续披露,PE 本身是一套 3B 参数 的预训练模型,甚至进一步说明,若换成更大的外部语言模型去做增强,效果还会继续变化。[2] 到了这一步,PE 开启后的 benchmark claim 已经不再只是 DiT 骨干网络的行为描述,它描述的是一套复合生成系统。

这层事实并没有削弱这次发布,反而让评测对象变得更清楚。若一个产品团队关心的是海报、UI-like layout、双语长文本渲染,PE 开启后的结果正好对应它关心的系统表现。[1][2] 若一个研究团队关心的是较短提示词在未经上游改写时会被图像模型怎样执行,no-PE 路径更适合拿来当基线。[1][2] 真正需要回避的动作,是把这两个评测对象混成同一件事,再把最后的数字当成一种普遍结论。

百度这次材料的可贵之处,也落在这里。仓库把多张表里的 PE-on 与 PE-off 并排列出,diffusers 文档再解释默认值的实用性与关闭它的理由。[1][2] 这种证据卫生,比起那种在产品演示里悄悄做 prompt rewriting、在榜单里却不写任何说明的做法,要扎实得多。

Step budget 一变,比较对象也跟着变化

第二条边界,落在时间与算力预算。

百度的 README 把全量模型与 turbo 路线切得很清楚:ERNIE-Image50 steps,强调更强的通用能力和 instruction fidelity;ERNIE-Image-Turbo8 steps,通过 DMD 与 RL 优化速度与美学表现。[1] diffusers 文档也保留了同样的分叉,在示例代码里分别给出不同的 num_inference_stepsguidance_scale 默认值。[2]

这一点带来的直接结论是:full-model comparison 与 turbo-model comparison 需要分开看,除非部署目标本身完全一致。一个 8-step turbo 模型若能在长文本或文本理解任务上接近 full model,这件事在商业上非常有意义,因为很多生产型图像工作负载真正关心的是迭代速度与队列吞吐。[1][2] 同时,full model 与 turbo model 的优化目标、生成时间预算、质量速度交换关系都不相同,把两者揉在一张总榜里,会让结论本身开始失焦。

这一层在百度公开 24G VRAM 消费级显卡部署主张之后更值得重视。[1] 这已经不只是 benchmark claim,它还是 deployment claim。顺着这个角度看,实际问题会变成:同样是一张 24G 卡,50-step 路线在真实运行时能交出怎样的速度与质量,8-step turbo 路线又在什么负载下更合算。[1][2] 这些都属于有产品后果的评测问题。

放在 AI-China 语境里,这是一条更可检查的开放图像通道

把视线往外放一层,ERNIE-Image 给出的更大信号,在于百度正在把图像生成能力做成一条更可检查的开放通道,而并非把它收在黑箱样张里。

官方 ERNIE-Image 发布页把这款模型描述成一条基于 8B 单流 DiT 的开放文生图发布。[3] GitHub 仓库继续补上具体 benchmark table、PE-on 与 PE-off 分列、step count、部署说明,以及 Apache 2.0 许可证。[1] diffusers 文档又把模型立刻接进主流开源推理路径里,这意味着外部复跑与工具链集成的摩擦成本会更低。[2] 再往上看,ERNIE 5.0 Technical Report 给出了更高一层的背景:百度在推动的是一条统一的多模态理解与生成栈,图像生成放在这个框架里,自然更像一个可接入、可调度、可验证的组件。[4]

这种组合,比一组更漂亮的 gallery 样张更有用。它让外部开发者有机会判断:当前比较的到底是哪一层系统行为,哪些结果可以迁移到自己的 workload,哪些 headline number 又依赖于 prompt expansion 或更慢的生成预算。[1][2][4]

下一步最该测试什么

若团队要认真评估 ERNIE-Image,第一轮工作不该急着问“谁赢了”,更适合先把官方包里已经公开出来的边界条件保留下来。[1][2]

同一组提示词,先分别测试 PE onPE off。把 literal prompt obediencelong-text layout quality 拆开测。把 50-step full runs 放到质量优先的比较里,把 8-step turbo runs 放到快迭代路线里。若文本渲染是重点,再把 EnglishChinese 单独拉开。若部署是重点,再把 24G VRAM 这条主张放到自己的 runtime 与 throughput 预算里验证一遍。[1][2]

边界一旦被保留下来,ERNIE-Image 的价值会显得更清楚。它最强的贡献,并不在于替图像模型之争画上句号;它最强的贡献,在于把争论对象整理得更干净。

来源

  1. Baidu ERNIE-Image team, baidu/ERNIE-Image GitHub repository (official README covering the 8B single-stream DiT, Prompt Enhancer, 24G VRAM claim, Apache 2.0 license, 50-step full model, 8-step turbo model, and benchmark tables for GenEval, OneIG, and LongTextBench).
  2. Hugging Face Diffusers docs, "Ernie-Image" (pipeline docs covering the 8B model family, Prompt Enhancer default behavior, the instruction-following caveat, the separate 3B PE model, and 50-step vs 8-step generation examples).
  3. Baidu ERNIE Blog, "Introducing ERNIE-Image" (official April 15, 2026 release page introducing ERNIE-Image as an open text-to-image model built on a single-stream Diffusion Transformer with 8B DiT parameters).
  4. Wang, Haifeng, et al., "ERNIE 5.0 Technical Report" (arXiv:2602.04705; unified multimodal understanding-and-generation framing and Baidu's broader generation stack context).
  5. Wikimedia Commons, "File:Baidu headquarters at Shangdi (20220509111837).jpg" (source page for the real headquarters photograph used as the article image).