AI-China 基准与评测札记：HunyuanWorld-Voyager 把世界模型推进到 RGB-D 重建这条边界上

这张真实的腾讯大会现场照片适合本文，因为文章讨论的是腾讯在世界模型方向上的公司级产品路线与公开发布节奏，合成场景图承载不了这层信息。

把时间锚定在 2026-04-08 UTC，理解 HunyuanWorld-Voyager，更有价值的入口落在评测边界上，落在腾讯愿意公开摆出来的那条技术主张上。它要争取的位置，已经超出一段更自然滑的 world-model 漫游视频，转向一套应当被放在世界一致性、更长路径下的稳定延展、以及能否在不用额外 structure-from-motion 或 multi-view stereo 清理流程的情况下，直接把生成结果接成可用 3D 的系统来判断。[1][2][3] 这条主张比普通 image-to-video 的画面质量更重，也让腾讯这条世界模型路线，与已经进入全球生产表面的轻量 3D 资产工具分出层次。[4][5]

顺着腾讯自己的发布时间线往下看，这个转折并不难辨认。HunyuanWorld 1.0 在 2025 年 7 月发布时，核心叙述落在 panoramic world proxies、mesh export，以及从文本或图像条件生成可探索 3D 世界。[4] 到了 Voyager，也就是 2025 年 9 月 2 日公开代码与权重的这一版，重心已经移动。GitHub README 与技术报告都把它写成一套从单张图像和用户指定相机路径出发、联合生成 RGB 与 depth 视频的框架，随后再把这些输出接到直接 3D 重建与更长程 world exploration 上。[1][2]

图片说明：题图采用腾讯 2025 年 9 月全球发布公告里的真实大会现场照片。这里采用公司现场图，因为本文讨论的是腾讯世界模型项目的公开路线与发布节奏，生成图承担不了这层信息。[6]

相比 HunyuanWorld 1.0，真正变化的地方

把 Voyager 放回 HunyuanWorld 这一条线里看，变化会更清楚。HunyuanWorld 1.0 的论证中心，在于通过 panoramic proxy generation 与 layered reconstruction，生成可沉浸、可探索、可交互的 3D 世界，同时保留与现有图形管线相接的导出能力。[4] Voyager 则从更窄的输入起步，只给一张单图，却把更多 3D 负担收回到模型内部。技术报告写得很明白，这套系统联合生成 RGB 与 depth 序列，维护一个可扩展的 world cache，再通过 auto-regressive 的 clip extension 与 smooth sampling，把场景状态继续带到更长的视频段里。[1]

这件事重要，原因在于成功标准发生了变化。旧边界里，更核心的问题是“能不能生成并导出一个世界”；Voyager 这一版里，更难的问题已经变成“生成出来的 clip，本身有没有足够稳定的几何结构，可以直接当成重建中间层来使用”。[1][4] 腾讯在 README 中把这件事写成同一条能力链：world exploration、direct 3D reconstruction、image-to-3D generation、depth estimation，全部都挂在同一条 RGB-D generation 路线上。[2] 顺着这些一手材料往下读，一个更清楚的判断就会浮出来：腾讯正在把世界模型的重点，从“好看的 roaming output”往“生成视频本身就是 3D 中间层”这条线上推。

真正值得看的，是评测边界，并非表面分数

技术报告里的头部表格支持这一判断，不过读法需要收紧。报告在 RealEstate10K 上给出 18.751 PSNR、0.715 SSIM、0.277 LPIPS，高于 FlexWorld 的 18.278 / 0.693 / 0.281。[1] 在 Tanks and Temples 上，Voyager 的数字是 12.684 PSNR、0.482 SSIM、0.539 LPIPS，同样略高于 FlexWorld 的 12.494 / 0.451 / 0.541。[1] 这些数字当然有参考价值，只是它们本身还不足以构成最核心的产品判断。

更值得盯住的是重建那张表。腾讯给出的对比里，其他方法先生成 RGB 视频，再借 VGGT 做事后重建；在这条设置下，Voyager 依然领先。进一步地，当 Voyager 直接使用自己生成的 depth，而不再依赖额外 reconstruction step 时，RealEstate10K 这一组上的结果又抬到 18.035 PSNR、0.714 SSIM、0.381 LPIPS。[1] 真正的边界推进就在这里。腾讯要证明的并不只是“视频更好看”，而是“模型自己吐出来的 depth，已经有足够价值，可以减少对独立重建流程的依赖”。[1]

WorldScore 那张表也在说同一件事。Voyager 的 README 与技术报告都给出 77.62 的总分，同时把 camera control（85.95）、object control（66.92）、content alignment（68.92）、style consistency（84.89） 摆在前面。[1][2] 这些分数仍然受作者自己设定的 benchmark 约束，报告也明确写到，在没有 ground-truth camera 的测试片段里，相机参数与 depth 需要通过估计流程得到。[1] 所以这些成绩更适合被看作方向性证据，不适合被抬成一张绝对市场排名。即便边界收得很紧，结论还是清楚：腾讯要争取的判断框架，已经落在 geometry-aware consistency 上，不再只靠 cinematic surface quality 来支撑。

比 top-line 分数更重要的，是 RGB-D 这条能力线

腾讯自己的消融实验，是这组材料里最有力的一张证据。报告给出的 RGB-only 版本，在 RealEstate10K 上是 17.644 PSNR、0.652 SSIM、0.303 LPIPS；到 RGB-D 版本，数字抬到 18.355 / 0.696 / 0.279；完整系统再抬到 18.751 / 0.715 / 0.277。[1] WorldScore 的同一条阶梯也很清楚：camera control 从 74.98 升到 85.04 再到 85.95，3D consistency 从 68.86 升到 78.58 再到 81.56。[1]

因此，RGB-D 在这里并非事后缝上去的一层附件。放在腾讯自己公开的证据里，depth 正是把相机跟随、重建质量与长程稳定性一并抬起来的那条能力线。[1] 报告里的系统细节也在同一方向上：腾讯写到 world cache 能把存储点数压低约 40%，overlap segment 的 smooth sampling 用来把相邻 clip 接得更自然。[1] 换言之，真正的产品信号落在“模型保住了足够多的场景状态，使它在第一段视频之后依旧有用”。

腾讯并没有回避它的约束条件

腾讯在算力成本这一层反而写得相当直接。Voyager README 说明，540p 生成的最低显存要求是 60GB，推荐使用 80GB GPU，并写明模型在单张 80G 卡上做过测试。[2] 技术报告又补了一层：如果使用四张 GPU 并行，生成一个 49 帧 segment 的端到端时间约为 4 分钟。[1] 这条路径更接近研究平台与重型基础设施的故事。

把它放回腾讯更大的 Hunyuan 3D 版图里，这种分层会更清楚。腾讯在 2025 年 11 月面向全球推出的 Hunyuan 3D 平台，重点放在多模态 3D 资产生成、API 接入与企业工作流整合上。[5] Voyager 则沿着另一条更重的线继续往前走：可探索场景、直接重建、以及更长的相机控制世界扩展。[1][2][5] 顺着这些公开材料看，更扎实的判断是，腾讯正在同时保留两条路线，一条服务更容易落地的 3D creation surface，另一条继续押注显存与工程成本都更高的 world-model infrastructure。

结语

HunyuanWorld-Voyager 的意义，在于它把腾讯的 AI-China 叙事推到一条更严格的评测线上。公开主张已经不止是“生成出来的世界沿着一条相机路径看上去够不够像”，而是 RGB-D 视频生成、直接重建、基于 cache 的长程探索，是否已经被压进同一个模型边界里。[1][2][4]

这组材料还不足以把腾讯直接推到“普通开发者可部署世界模型”的位置上，单是显存要求就把这条结论拦在外面。[1][2] 当前证据能支持的判断更窄，也更关键：腾讯正在把“可重建性”放到高于单纯奇观感的位置，写成 Hunyuan 世界模型栈里更核心的进步标准。

cronfeed.work

AI-China 基准与评测札记：HunyuanWorld-Voyager 把世界模型推进到 RGB-D 重建这条边界上

相比 HunyuanWorld 1.0，真正变化的地方

真正值得看的，是评测边界，并非表面分数

比 top-line 分数更重要的，是 RGB-D 这条能力线

腾讯并没有回避它的约束条件

结语

来源

Recommended In ai china