Emu3.5 把多模态评测从截图竞赛推向序列问题

封面使用北京智源人工智能研究院 2018 年成立时的官方档案照片。这个机构锚点在这里有意义，因为 Emu3.5 的语境远离消费级滤镜故事，它属于 BAAI 围绕多模态模型、系统与评测界面展开的长期开放研究推进的一部分。[5]

如果把 Emu3.5 归入普通图像生成，它很容易被误读。对 AI-China 观察而言，有用的信号并非 BAAI 又发布了一个会生成图片的模型，而在于 Emu3.5 把评测单位变得更难：评测对象从一个提示词、一张图片和一个美学分数，转向图像与文本交错组成的序列，模型需要在时间推进中保存状态、意图和视觉连续性。

截至 2026-06-15T19:35:35Z UTC，公开工件集合包括 BAAI GitHub 仓库、arXiv 论文，以及通用 Emu3.5 模型和图像专用 Emu3.5-Image 变体在 Hugging Face 上的模型卡。[1][2][3][4] 这一点很重要，因为这个项目的可检查程度足以让外部把它作为系统主张来评估，而不只作为作品集来观看。README 将 Emu3.5 表述为一种原生多模态模型，在视觉与语言之间联合预测下一状态；论文则描述了一个建立在交错视觉-语言数据上的 next-token 目标，而这些数据主要来自连续视频帧和转录文本。[1][2]

由此出现的更尖锐问题是：当输出不再是一张单图时，什么才算进展？

基准边界从图像质量移向序列保真度

单图基准有一个熟悉的失效模式。它们会奖励局部打磨，同时遮住模型是否理解过程、场景历史或多步骤指令。一张车间图片可以看起来可信，哪怕工具使用顺序在物理上讲不通。一张生成的信息图可以显得结构分明，却把标签放错位置。一组前后对比编辑可以很有吸引力，同时没有保留身份、数量或布局。

Emu3.5 直接进入了这个缺口。论文称，该模型接受交错视觉-语言输入，并生成交错视觉-语言输出，覆盖长程视觉-语言生成、any-to-image 生成、视觉引导、世界探索，以及带有具身操作风格的场景。[2] Hugging Face 模型卡采用同样的区分：Emu3.5 被定位为面向通用多模态预测和交错图文生成，Emu3.5-Image 则面向单图 T2I 与 X2I 任务。[3][4]

这个拆分就是重要的评测线索。如果一个模型被要求生成视觉指南，输出就不能按海报来评分。步骤需要保持顺序。被描绘的物体不能无缘由地变形。文字说明与图像应当描述同一个操作。第三步之后的视觉状态应当是第二步的合理延续。这些问题属于序列保真度，而不只属于审美口味。

在这个层面上，AI-China 模型报道需要更有纪律。演示短片可以让交错生成显得顺理成章。基准需要追问模型能否在多轮中维持约束，文本与图像能否准确共指，场景能否延续，最终结果是否仍然连着原始指令。Emu3.5 的有趣之处在于，它的公开主张把这场评测讨论推到了明处。[1][2][3]

技术主张是原生多模态预测

BAAI 仓库围绕一组紧凑概念呈现 Emu3.5：统一世界建模、端到端预训练、原生多模态输入与输出、强化学习后训练，以及 Discrete Diffusion Adaptation，即 DiDA。[1] 论文给出了数字锚点：预训练使用超过 10 trillion 个交错多模态 token，主要来自视频帧和转录文本。[2] 这应被视为作者报告的规模主张，但它解释了项目抱负。训练底座被设计成让视觉变化与语言描述进入同一个预测问题。

这与更模块化的流水线不同。在那类系统里，语言模型负责规划，图像模型负责渲染，另一个字幕或编辑工具再尝试让部件对齐。模块化系统可以很实用，但它们常在接口处泄露状态。原生交错模型尝试的是另一种交换：把视觉 token 与文本 token 放进同一条预测流中，再要求模型学习两者之间的转换。

边界仍然存在。“原生”不会自动等于可靠。它意味着失效模式发生移动。评测者不能只检查单帧的提示遵循情况，还要检查序列连贯性、跨模态落地、编辑保留，以及速度与质量之间的取舍。仓库说明已发布的 Emu3.5 与 Emu3.5-Image 权重是未使用 DiDA 加速的纯 next-token 预测器，这一点尤其有用，因为它让生产主张保持清楚：用户不应假设论文中最快的推理路径已经成为默认公开权重行为。[3][4]

DiDA 是评测主张，也是一项速度主张

论文中最容易吸引注意的数字是 DiDA 主张。作者称 Discrete Diffusion Adaptation 将逐 token 解码转成双向并行预测，并在不牺牲性能的前提下，把单图推理加速约 20x。[2] Hugging Face 模型卡在操作层面更谨慎：它说明当前公开模型是纯 next-token 预测器，指出每张图生成需要数分钟，并称 DiDA 加速权重仍会在后续发布。[3][4]

这个区别应当影响读者理解这次发布的方式。DiDA 不只是性能优化。它也是一项评测挑战。如果模型改变了解码过程，基准制定者就需要确认，并行生成在相同提示下仍能保留物体身份、文字渲染、空间关系和步骤连续性。加速有价值的前提，是它不会悄悄损伤那些让 Emu3.5 与众不同的长程属性。

因此，合适的问题应指向“DiDA 是否能让交错多模态序列保持足够忠实，使模型仍可作为世界建模系统来评测”，速度提升只是这个问题的一部分。论文报告了无性能牺牲的加速；下游用户在把它视为部署假设前，应在自身任务分布上复现这一主张。[2][3][4]

为什么开放模型界面重要

Emu3.5 也作为开放界面信号而重要。GitHub 仓库链接了代码、项目页面、模型权重、论文和应用引用。[1] Hugging Face 页面则暴露了 Emu3.5、Emu3.5-Image 和 tokenizer 界面的独立工件，并在模型卡上显示 Apache-2.0 许可。[3][4] 这样的打包方式比新闻稿更有用，因为外部团队可以测试自己真正需要主张中的哪一部分。

对研究者而言，Emu3.5 可以作为原生多模态序列建模的测试案例。对开发者而言，通用交错模型与图像聚焦变体之间的区分给出了一条实用路由规则：当输出是视觉叙事或指南时使用宽模型，当任务集中在单图生成或编辑时使用图像变体。[3][4] 对评测者而言，同样的拆分可以避免一种常见错误：把所有模型都放在最容易评分的视觉表面上，而忽略它原本要处理的任务族。

这里还有一个更大的 AI-China 模式。2026 年的许多中国发布已经不再只是模型卡公告。它们会带着代码、模型中心、评测页面、应用界面和部署说明一起出现。Emu3.5 符合这个模式，同时比多数图像模型发布带有更强研究信号：它提出了一个问题，即多模态生成是否应被评测为一种时间性的、跨模态的预测问题。

生产风险在于过度解读演示

主要风险是过度声称。一个可以生成交错视觉-文本序列的模型，不会自动成为安全的机器人控制器、可靠的训练模拟器，或事实稳定的视觉指令引擎。长程生成会静默失败。它会在步骤之间漂移，引入违背物理约束的物体状态，写出自信但错误的指令，或生成看似合理、在物理世界中却不能运作的视觉序列。

这也是本文基准解读刻意收窄的原因。Emu3.5 不能证明原生多模态世界模型已经解决。它证明的是，一个最重要的评测边界正在变得足够公开，可以被检查。如果一个模型声称从类视频序列中学习，并产出交错视觉-语言输出，评测者就应要求步骤一致性、视觉状态承接、文图一致，以及可复现的速度-质量比较。

有用的结论是实践性的。评价 Emu3.5 时，应少把它看作更漂亮的图像生成器，多把它看作一个多模态序列建模的候选测试床。它最强的公开信号，是从静态提示词-图像打分，转向对随时间展开的交错输出进行评测。下一轮 AI-China 多模态竞争的难度和趣味，也会在这里超过另一场截图竞赛。

cronfeed.work