如果把 Emu3.5 归入普通图像生成,它很容易被误读。对 AI-China 观察而言,有用的信号并非 BAAI 又发布了一个会生成图片的模型,而在于 Emu3.5 把评测单位变得更难:评测对象从一个提示词、一张图片和一个美学分数,转向图像与文本交错组成的序列,模型需要在时间推进中保存状态、意图和视觉连续性。
截至 2026-06-15T19:35:35Z UTC,公开工件集合包括 BAAI GitHub 仓库、arXiv 论文,以及通用 Emu3.5 模型和图像专用 Emu3.5-Image 变体在 Hugging Face 上的模型卡。[1][2][3][4] 这一点很重要,因为这个项目的可检查程度足以让外部把它作为系统主张来评估,而不只作为作品集来观看。README 将 Emu3.5 表述为一种原生多模态模型,在视觉与语言之间联合预测下一状态;论文则描述了一个建立在交错视觉-语言数据上的 next-token 目标,而这些数据主要来自连续视频帧和转录文本。[1][2]
由此出现的更尖锐问题是:当输出不再是一张单图时,什么才算进展?
基准边界从图像质量移向序列保真度
单图基准有一个熟悉的失效模式。它们会奖励局部打磨,同时遮住模型是否理解过程、场景历史或多步骤指令。一张车间图片可以看起来可信,哪怕工具使用顺序在物理上讲不通。一张生成的信息图可以显得结构分明,却把标签放错位置。一组前后对比编辑可以很有吸引力,同时没有保留身份、数量或布局。
Emu3.5 直接进入了这个缺口。论文称,该模型接受交错视觉-语言输入,并生成交错视觉-语言输出,覆盖长程视觉-语言生成、any-to-image 生成、视觉引导、世界探索,以及带有具身操作风格的场景。[2] Hugging Face 模型卡采用同样的区分:Emu3.5 被定位为面向通用多模态预测和交错图文生成,Emu3.5-Image 则面向单图 T2I 与 X2I 任务。[3][4]
这个拆分就是重要的评测线索。如果一个模型被要求生成视觉指南,输出就不能按海报来评分。步骤需要保持顺序。被描绘的物体不能无缘由地变形。文字说明与图像应当描述同一个操作。第三步之后的视觉状态应当是第二步的合理延续。这些问题属于序列保真度,而不只属于审美口味。
在这个层面上,AI-China 模型报道需要更有纪律。演示短片可以让交错生成显得顺理成章。基准需要追问模型能否在多轮中维持约束,文本与图像能否准确共指,场景能否延续,最终结果是否仍然连着原始指令。Emu3.5 的有趣之处在于,它的公开主张把这场评测讨论推到了明处。[1][2][3]
技术主张是原生多模态预测
BAAI 仓库围绕一组紧凑概念呈现 Emu3.5:统一世界建模、端到端预训练、原生多模态输入与输出、强化学习后训练,以及 Discrete Diffusion Adaptation,即 DiDA。[1] 论文给出了数字锚点:预训练使用超过 10 trillion 个交错多模态 token,主要来自视频帧和转录文本。[2] 这应被视为作者报告的规模主张,但它解释了项目抱负。训练底座被设计成让视觉变化与语言描述进入同一个预测问题。
这与更模块化的流水线不同。在那类系统里,语言模型负责规划,图像模型负责渲染,另一个字幕或编辑工具再尝试让部件对齐。模块化系统可以很实用,但它们常在接口处泄露状态。原生交错模型尝试的是另一种交换:把视觉 token 与文本 token 放进同一条预测流中,再要求模型学习两者之间的转换。
边界仍然存在。“原生”不会自动等于可靠。它意味着失效模式发生移动。评测者不能只检查单帧的提示遵循情况,还要检查序列连贯性、跨模态落地、编辑保留,以及速度与质量之间的取舍。仓库说明已发布的 Emu3.5 与 Emu3.5-Image 权重是未使用 DiDA 加速的纯 next-token 预测器,这一点尤其有用,因为它让生产主张保持清楚:用户不应假设论文中最快的推理路径已经成为默认公开权重行为。[3][4]
DiDA 是评测主张,也是一项速度主张
论文中最容易吸引注意的数字是 DiDA 主张。作者称 Discrete Diffusion Adaptation 将逐 token 解码转成双向并行预测,并在不牺牲性能的前提下,把单图推理加速约 20x。[2] Hugging Face 模型卡在操作层面更谨慎:它说明当前公开模型是纯 next-token 预测器,指出每张图生成需要数分钟,并称 DiDA 加速权重仍会在后续发布。[3][4]
这个区别应当影响读者理解这次发布的方式。DiDA 不只是性能优化。它也是一项评测挑战。如果模型改变了解码过程,基准制定者就需要确认,并行生成在相同提示下仍能保留物体身份、文字渲染、空间关系和步骤连续性。加速有价值的前提,是它不会悄悄损伤那些让 Emu3.5 与众不同的长程属性。
因此,合适的问题应指向“DiDA 是否能让交错多模态序列保持足够忠实,使模型仍可作为世界建模系统来评测”,速度提升只是这个问题的一部分。论文报告了无性能牺牲的加速;下游用户在把它视为部署假设前,应在自身任务分布上复现这一主张。[2][3][4]
为什么开放模型界面重要
Emu3.5 也作为开放界面信号而重要。GitHub 仓库链接了代码、项目页面、模型权重、论文和应用引用。[1] Hugging Face 页面则暴露了 Emu3.5、Emu3.5-Image 和 tokenizer 界面的独立工件,并在模型卡上显示 Apache-2.0 许可。[3][4] 这样的打包方式比新闻稿更有用,因为外部团队可以测试自己真正需要主张中的哪一部分。
对研究者而言,Emu3.5 可以作为原生多模态序列建模的测试案例。对开发者而言,通用交错模型与图像聚焦变体之间的区分给出了一条实用路由规则:当输出是视觉叙事或指南时使用宽模型,当任务集中在单图生成或编辑时使用图像变体。[3][4] 对评测者而言,同样的拆分可以避免一种常见错误:把所有模型都放在最容易评分的视觉表面上,而忽略它原本要处理的任务族。
这里还有一个更大的 AI-China 模式。2026 年的许多中国发布已经不再只是模型卡公告。它们会带着代码、模型中心、评测页面、应用界面和部署说明一起出现。Emu3.5 符合这个模式,同时比多数图像模型发布带有更强研究信号:它提出了一个问题,即多模态生成是否应被评测为一种时间性的、跨模态的预测问题。
生产风险在于过度解读演示
主要风险是过度声称。一个可以生成交错视觉-文本序列的模型,不会自动成为安全的机器人控制器、可靠的训练模拟器,或事实稳定的视觉指令引擎。长程生成会静默失败。它会在步骤之间漂移,引入违背物理约束的物体状态,写出自信但错误的指令,或生成看似合理、在物理世界中却不能运作的视觉序列。
这也是本文基准解读刻意收窄的原因。Emu3.5 不能证明原生多模态世界模型已经解决。它证明的是,一个最重要的评测边界正在变得足够公开,可以被检查。如果一个模型声称从类视频序列中学习,并产出交错视觉-语言输出,评测者就应要求步骤一致性、视觉状态承接、文图一致,以及可复现的速度-质量比较。
有用的结论是实践性的。评价 Emu3.5 时,应少把它看作更漂亮的图像生成器,多把它看作一个多模态序列建模的候选测试床。它最强的公开信号,是从静态提示词-图像打分,转向对随时间展开的交错输出进行评测。下一轮 AI-China 多模态竞争的难度和趣味,也会在这里超过另一场截图竞赛。
Sources
- BAAI Vision,
Emu3.5GitHub repository - official README, project links, model distinctions, core concept table, news, and inference notes. - Yufeng Cui et al., "Emu3.5: Native Multimodal Models are World Learners," arXiv:2510.26583 - paper abstract, training scale claim, native interleaved input/output framing, DiDA claim, and evaluation scope.
- BAAI/Emu3.5 on Hugging Face - model card, Emu3.5 versus Emu3.5-Image distinction, public model notes, license, and vLLM/news context.
- BAAI/Emu3.5-Image on Hugging Face - image-specialized model card, usage surface, public-weight notes, and Apache-2.0 model metadata.
- Ministry of Science and Technology of the People's Republic of China, "Beijing releases Zhiyuan Action Plan; Beijing Academy of Artificial Intelligence formally established" (November 23, 2018) - official source page for the archival founding-event photograph.