截至 2026-06-21T05:34:26Z UTC,阅读 Open-Sora Plan 的有效方式,并非把它当成某个知名产品演示的开源版本。更窄也更有价值的读法,是把它看成一次视频生成配方公开审计。工程团队在判断一段结果到底意味着什么之前,可以先检查仓库、论文、模型页、v1.5 报告、数据说明、加速器路径、VAE 选择、帧数限制和 benchmark 表格。[1][2][3][4]
这件事放在 AI 中国语境里很重要,因为视频模型尤其容易被过度解读。一段效果不错的片段,可以遮住提示词筛选、精选 seed、后处理、私有数据、私有评测和昂贵训练细节。Open-Sora Plan 的公开材料链条没有消除这些风险。它改变的是尽调问题:配方里的哪些部分,已经清楚到足以复现、施压测试或证伪?
这个项目始于 2024 年 3 月,由 PKU-YuanGroup 与兔展 AIGC 联合实验室发起,目标是开放复现 Sora 风格的文生视频生成,参与方包括兔展、华为、鹏城实验室和开源社区。[1] 单看这个起点,故事并不罕见。更值得看的信号在发布节奏。README 记录了一条路径:2024 年 3 月的 VideoCausalVAE,4 月 v1.0,5 月 v1.1,7 月 v1.2,10 月 v1.3,2025 年 6 月 v1.5,再到面向实时长视频生成的 2026 Helios 分支。[1]
这条节奏重要,是因为它把项目变成了一段栈演进史。Open-Sora Plan 超出了单个 checkpoint 的范围,记录了一连串关于时间压缩、attention、数据过滤、硬件和推理形态的取舍。
Benchmark 只是最后一层
v1.5 报告里的 headline 表格很容易被引用:Open-Sora Plan v1.5.0 被列为 8B 模型,VBench 总分 83.02%;同一张表里,HunyuanVideo 为 83.24%,Gen-3 为 82.32%。[2] 这个数字可以作为锚点,但不适合直接读成产品定论。VBench 是结构化 benchmark,不能替代生产视频评估里关于品牌安全、时间一致性、提示词贴合度、编辑控制、授权、延迟和成本的检查。
报告更强的价值在分数上游。它写明 v1.5.0 使用 8.5B 参数模型、11 亿张高质量图像、4000 万个高质量视频,并通过 MindSpeed-MM 使用昇腾 910 系列加速器。[2] 这些数字来自项目方报告,却让评估范围变得清楚。读者可以看到 benchmark 背后是哪一种规模主张,训练走的是哪条硬件路线,哪些部分仍然绑定 NPU 专用工具。
这条硬件边界并非脚注。README 称 v1.5.0 完全在昇腾 910 系列加速器上训练和推理,GPU 版本仍标注为 coming soon;资源说明也写到,当前 v1.5 权重兼容 NPU 加 MindSpeed-MM 框架。[1] 对 AI 中国而言,这正是核心位置。开放视频生成不只是一场算法竞赛,也是一场国产加速器和软件栈竞赛。
压缩是安静的调节旋钮
Open-Sora Plan 的论文把项目描述为一套完整的视频生成流程,包含 Wavelet-Flow Variational Autoencoder、Joint Image-Video Skiparse Denoiser、条件控制器、高效训练与推理策略,以及多维数据筛选流水线。[3] 这句话就是架构地图。模型不能只按输出美感来评估,还要看整条流水线能否把高维视频问题压到可以训练和运行的大小。
VAE 是最清楚的例子。v1.5 报告称团队改用带 8x8x8 下采样的 WFVAE,在尽量保留重建质量的同时,缩小 latent shape,并缩短 attention sequence length。[2] 相关的 WF-VAE 论文把同一层放进 latent-video-diffusion 问题里:在 denoising model 动手之前,更好的视频 VAE 设计就可以改善压缩与重建。[5]
这也是“视频生成”这个标签容易误导的原因。真正困难的工作来自一条链,远超一次模型调用:把帧和运动编码进 latent representation,决定保留多少时间细节,在没有超出硬件预算的序列上训练 DiT,再把运动解码回视频,同时避免压缩伪影变成最终风格。如果 VAE 弱,denoiser 会继承损伤。如果 latent sequence 太大,attention 成本会压过其他部分。如果压缩遮住太多运动,benchmark 分数会显得干净,用户实际感受到的运动却会打折。
Sparse attention 是需要审计的速度主张
第二个调节旋钮是 attention。Open-Sora Plan v1.3 引入 Skiparse Attention;v1.5 将它扩展为 U-shaped sparse diffusion transformer,也就是 SUV。[1][2] 报告称,在昇腾 910B 平台、121x576x1024 形状下,SUV 比 Dense DiT 快 35% 以上,attention 操作本身提升 45% 以上。[2]
这些数字有价值,因为它们具体到可以测试。它们也带有明确范围。数字适用于报告所列的平台与形状,并且来自项目方报告。团队在自己的分辨率、帧数、batch size、编译栈和部署硬件下重新比较之前,不应把它们改写成普遍性的“sparse attention 更快”。
不过,这个架构思路本身很重要。视频生成会严厉惩罚序列长度。若一个模型把所有 token 交互都视作同等昂贵,帧数、分辨率或时长一升,成本就会急剧上行。SUV 的押注在于,稀疏的全局交互可以保留足够的时空一致性,同时让高分辨率视频更容易处理。这个押注在作者 benchmark 范围之外能否成立,正是评估时应该追问的问题。[2]
这次发布对限制说得异常直接
Open-Sora Plan 公开材料里最有价值的一点,是它把不太好看的约束也暴露出来,而不只是展示精修主张。
v1.3.0 的 Hugging Face 页面写明,该版本支持在华为昇腾系统上完成训练和推理,列出 WFVAE、prompt refiner、data filtering、sparse attention 和 bucket training,并给出 24G VRAM 内支持 93x480p 的资源点。[4] 页面还说明,由于 stride-32 训练设置,帧数需要遵循 4n+1 形式,例如 93、77、61、45、29 或 1。[4] README 在多个版本的资源表里重复了类似约束,并指出部分早期权重没有经过最终高质量数据微调,存在生成水印的风险。[1]
这些细节降低了宣传热度。它们告诉工程团队边缘在哪里:帧数、分辨率倍数、NPU 框架依赖、checkpoint 兼容性和数据质量 caveat。在封闭产品演示里,这些边缘通常要等用户撞上才会显形。放在 Open-Sora Plan 里,至少有一部分可以提前看见。[1][4]
这种可见性应当影响采用方式。研究实验室可以把 Open-Sora Plan 当成视频架构实验配方。追求稳定生产输出的媒体团队,则应把它当成技术材料,而不是成熟创作平台。硬件团队可以把它读作一条证据:昇腾支持的训练路径已经能够承载严肃的视频工作负载,同时仍要拿 GPU 流程和部署预期做仔细验证。
哪些测试会让主张更强
接下来有三类测试最关键。
第一,复现。公开代码、报告和权重很有价值,但更强的信号来自外部团队在记录清楚的硬件与数据集假设下复现 v1.5 benchmark profile。开放发布让这件事成为可行工作;它不会自动发生。[1][2][3]
第二,迁移。如果 GPU 版本成熟,同时 NPU 版本仍保持一等支持,Open-Sora Plan 就会成为国产加速器战略与全球研究工具之间更强的桥。如果 v1.5 路径继续紧紧绑定昇腾专用基础设施,它仍然重要,只是采用范围更窄。[1][2]
第三,任务评测。VBench 这类聚合分数需要配合实际测试:长提示词服从、多镜头连续性、产品安全生成、图生视频控制、时间编辑、避免水印,以及每条可接受片段的成本。v1.5 报告本身也把图生视频指向未来更贴近生产的重点,这个方向合理,因为大多数商业视频工作流从既有资产开始,很少只从自由文本开始。[2]
结论是:Open-Sora Plan 的重要性在于,它让 AI 视频少了一点魔法感,多了一层可检查性。它最强的贡献落在一份公开配方上,超过某一段生成片段本身:VAE 压缩、sparse attention、数据规模、训练阶段、硬件依赖、帧数约束和 benchmark 边界,被放进同一条公开轨迹里。对 AI 中国而言,这就是应该持续观察的信号。视频竞赛正在变成供应链审计。
来源
- PKU-YuanGroup,
Open-Sora-PlanGitHub 仓库——项目起源、发布历史、v1.5 昇腾训练说明、资源表、约束,以及公开代码与权重链接。 - PKU-YuanGroup,"Report v1.5.0"——官方 v1.5 技术报告,覆盖 SUV、8x8x8 WFVAE、数据规模、昇腾 910 系列训练、VBench 表格、训练阶段和未来工作。
- Bin Lin 等,"Open-Sora Plan: Open-Source Large Video Generation Model," arXiv:2412.00131(2024 年 11 月 28 日提交)。
- LanguageBind,"Open-Sora-Plan-v1.3.0" Hugging Face 模型页——v1.3 发布说明、昇腾支持、WFVAE/prompt-refiner/data-filtering 细节、24G VRAM 内 93x480p 说明,以及帧数约束。
- Zongjian Li 等,"WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model," arXiv:2411.17459。
- Wikimedia Commons,"Boya Pagoda, Peking University.jpg"——Huangdan2060 拍摄的 2011 年真实照片,用作本文题图来源。