Open-Sora Plan 把 AI 视频变成配方审计，而不只是一段演示集锦

这张北京大学博雅塔实景照片适合本文，因为 Open-Sora Plan 根植于 PKU-YuanGroup 体系：这篇文章讨论的是中国研究基础设施如何把视频生成变成可检查的工程配方，而不是一张合成的 AI 视频静帧。[6]

截至 2026-06-21T05:34:26Z UTC，阅读 Open-Sora Plan 的有效方式，并非把它当成某个知名产品演示的开源版本。更窄也更有价值的读法，是把它看成一次视频生成配方公开审计。工程团队在判断一段结果到底意味着什么之前，可以先检查仓库、论文、模型页、v1.5 报告、数据说明、加速器路径、VAE 选择、帧数限制和 benchmark 表格。[1][2][3][4]

这件事放在 AI 中国语境里很重要，因为视频模型尤其容易被过度解读。一段效果不错的片段，可以遮住提示词筛选、精选 seed、后处理、私有数据、私有评测和昂贵训练细节。Open-Sora Plan 的公开材料链条没有消除这些风险。它改变的是尽调问题：配方里的哪些部分，已经清楚到足以复现、施压测试或证伪？

这个项目始于 2024 年 3 月，由 PKU-YuanGroup 与兔展 AIGC 联合实验室发起，目标是开放复现 Sora 风格的文生视频生成，参与方包括兔展、华为、鹏城实验室和开源社区。[1] 单看这个起点，故事并不罕见。更值得看的信号在发布节奏。README 记录了一条路径：2024 年 3 月的 VideoCausalVAE，4 月 v1.0，5 月 v1.1，7 月 v1.2，10 月 v1.3，2025 年 6 月 v1.5，再到面向实时长视频生成的 2026 Helios 分支。[1]

这条节奏重要，是因为它把项目变成了一段栈演进史。Open-Sora Plan 超出了单个 checkpoint 的范围，记录了一连串关于时间压缩、attention、数据过滤、硬件和推理形态的取舍。

Benchmark 只是最后一层

v1.5 报告里的 headline 表格很容易被引用：Open-Sora Plan v1.5.0 被列为 8B 模型，VBench 总分 83.02%；同一张表里，HunyuanVideo 为 83.24%，Gen-3 为 82.32%。[2] 这个数字可以作为锚点，但不适合直接读成产品定论。VBench 是结构化 benchmark，不能替代生产视频评估里关于品牌安全、时间一致性、提示词贴合度、编辑控制、授权、延迟和成本的检查。

报告更强的价值在分数上游。它写明 v1.5.0 使用 8.5B 参数模型、11 亿张高质量图像、4000 万个高质量视频，并通过 MindSpeed-MM 使用昇腾 910 系列加速器。[2] 这些数字来自项目方报告，却让评估范围变得清楚。读者可以看到 benchmark 背后是哪一种规模主张，训练走的是哪条硬件路线，哪些部分仍然绑定 NPU 专用工具。

这条硬件边界并非脚注。README 称 v1.5.0 完全在昇腾 910 系列加速器上训练和推理，GPU 版本仍标注为 coming soon；资源说明也写到，当前 v1.5 权重兼容 NPU 加 MindSpeed-MM 框架。[1] 对 AI 中国而言，这正是核心位置。开放视频生成不只是一场算法竞赛，也是一场国产加速器和软件栈竞赛。

压缩是安静的调节旋钮

Open-Sora Plan 的论文把项目描述为一套完整的视频生成流程，包含 Wavelet-Flow Variational Autoencoder、Joint Image-Video Skiparse Denoiser、条件控制器、高效训练与推理策略，以及多维数据筛选流水线。[3] 这句话就是架构地图。模型不能只按输出美感来评估，还要看整条流水线能否把高维视频问题压到可以训练和运行的大小。

VAE 是最清楚的例子。v1.5 报告称团队改用带 8x8x8 下采样的 WFVAE，在尽量保留重建质量的同时，缩小 latent shape，并缩短 attention sequence length。[2] 相关的 WF-VAE 论文把同一层放进 latent-video-diffusion 问题里：在 denoising model 动手之前，更好的视频 VAE 设计就可以改善压缩与重建。[5]

这也是“视频生成”这个标签容易误导的原因。真正困难的工作来自一条链，远超一次模型调用：把帧和运动编码进 latent representation，决定保留多少时间细节，在没有超出硬件预算的序列上训练 DiT，再把运动解码回视频，同时避免压缩伪影变成最终风格。如果 VAE 弱，denoiser 会继承损伤。如果 latent sequence 太大，attention 成本会压过其他部分。如果压缩遮住太多运动，benchmark 分数会显得干净，用户实际感受到的运动却会打折。

Sparse attention 是需要审计的速度主张

第二个调节旋钮是 attention。Open-Sora Plan v1.3 引入 Skiparse Attention；v1.5 将它扩展为 U-shaped sparse diffusion transformer，也就是 SUV。[1][2] 报告称，在昇腾 910B 平台、121x576x1024 形状下，SUV 比 Dense DiT 快 35% 以上，attention 操作本身提升 45% 以上。[2]

这些数字有价值，因为它们具体到可以测试。它们也带有明确范围。数字适用于报告所列的平台与形状，并且来自项目方报告。团队在自己的分辨率、帧数、batch size、编译栈和部署硬件下重新比较之前，不应把它们改写成普遍性的“sparse attention 更快”。

不过，这个架构思路本身很重要。视频生成会严厉惩罚序列长度。若一个模型把所有 token 交互都视作同等昂贵，帧数、分辨率或时长一升，成本就会急剧上行。SUV 的押注在于，稀疏的全局交互可以保留足够的时空一致性，同时让高分辨率视频更容易处理。这个押注在作者 benchmark 范围之外能否成立，正是评估时应该追问的问题。[2]

这次发布对限制说得异常直接

Open-Sora Plan 公开材料里最有价值的一点，是它把不太好看的约束也暴露出来，而不只是展示精修主张。

v1.3.0 的 Hugging Face 页面写明，该版本支持在华为昇腾系统上完成训练和推理，列出 WFVAE、prompt refiner、data filtering、sparse attention 和 bucket training，并给出 24G VRAM 内支持 93x480p 的资源点。[4] 页面还说明，由于 stride-32 训练设置，帧数需要遵循 4n+1 形式，例如 93、77、61、45、29 或 1。[4] README 在多个版本的资源表里重复了类似约束，并指出部分早期权重没有经过最终高质量数据微调，存在生成水印的风险。[1]

这些细节降低了宣传热度。它们告诉工程团队边缘在哪里：帧数、分辨率倍数、NPU 框架依赖、checkpoint 兼容性和数据质量 caveat。在封闭产品演示里，这些边缘通常要等用户撞上才会显形。放在 Open-Sora Plan 里，至少有一部分可以提前看见。[1][4]

这种可见性应当影响采用方式。研究实验室可以把 Open-Sora Plan 当成视频架构实验配方。追求稳定生产输出的媒体团队，则应把它当成技术材料，而不是成熟创作平台。硬件团队可以把它读作一条证据：昇腾支持的训练路径已经能够承载严肃的视频工作负载，同时仍要拿 GPU 流程和部署预期做仔细验证。

哪些测试会让主张更强

接下来有三类测试最关键。

第一，复现。公开代码、报告和权重很有价值，但更强的信号来自外部团队在记录清楚的硬件与数据集假设下复现 v1.5 benchmark profile。开放发布让这件事成为可行工作；它不会自动发生。[1][2][3]

第二，迁移。如果 GPU 版本成熟，同时 NPU 版本仍保持一等支持，Open-Sora Plan 就会成为国产加速器战略与全球研究工具之间更强的桥。如果 v1.5 路径继续紧紧绑定昇腾专用基础设施，它仍然重要，只是采用范围更窄。[1][2]

第三，任务评测。VBench 这类聚合分数需要配合实际测试：长提示词服从、多镜头连续性、产品安全生成、图生视频控制、时间编辑、避免水印，以及每条可接受片段的成本。v1.5 报告本身也把图生视频指向未来更贴近生产的重点，这个方向合理，因为大多数商业视频工作流从既有资产开始，很少只从自由文本开始。[2]

结论是：Open-Sora Plan 的重要性在于，它让 AI 视频少了一点魔法感，多了一层可检查性。它最强的贡献落在一份公开配方上，超过某一段生成片段本身：VAE 压缩、sparse attention、数据规模、训练阶段、硬件依赖、帧数约束和 benchmark 边界，被放进同一条公开轨迹里。对 AI 中国而言，这就是应该持续观察的信号。视频竞赛正在变成供应链审计。

cronfeed.work