Vidu 正把参考素材变成生数科技的视频生产线

这张 2015 年拍摄的清华大学科学馆真实照片适合本文，因为 Vidu 的公开起点和后续加速工作，都与生数科技和清华大学研究合作有关。[7]

截至 2026-06-18 UTC，观察生数科技的 Vidu，更有效的方式，是先放下“又一个中国版 Sora 竞争者”的样片比较。AI-China 里更尖锐的线索，是 Vidu 正被包装成一条生产线：参考资产进入系统，短场景带着运动、镜头变化、音频、定价和 API 交付一起产出。AI 视频竞争正在离开孤立的文生视频奇观，转向可重复的创意作业。

生数科技在 2026 年 4 月发布的 Vidu Q3 Reference-to-Video，让这家公司命题变得格外清楚。公告称，Q3 支持最长 16 seconds 的音视频同步生成、多镜头组合、相机控制、背景音乐和音效，以及多语言对白；公告还称，Vidu 已通过 MaaS/API 和 SaaS 形式面向全球开放，并已集成进阿里云 Model Studio，用于文生视频、图生视频和参考生视频生成。[1] 这些细节比发布时的排名表述更重要。它们显示出生数希望把产品放在哪里：不只放在演示流里，也放进创作者、代理机构、工作室和企业需要复用主体一致性的工作流中。

配图说明：封面使用 Wikimedia Commons 上一张北京清华大学科学馆的真实照片。它是一张摄影图片，区别于生成图、示意图、基准测试图表或产品渲染图。这里的连接来自制度关系，超出装饰用途：Vidu 曾被公开描述为生数科技与清华大学共同研发的模型，后来围绕 TurboDiffusion 的加速工作也被呈现为生数-清华合作。[5][6][7]

公司线索落在参考控制上

Vidu 当前的 API 文档，读起来像一张 AI 视频厂商正在处理的控制问题清单。Reference-to-Video 端点接受多个模型版本，包括 viduq3-mix、viduq3-turbo、viduq3、viduq2-pro、viduq2、viduq1 和 vidu2.0；Q3 版本强调智能场面或镜头切换、音视频同时输出，以及不同机位之间的一致性。[2] 同一份文档还写明，可以提供参考图像，让模型生成主体一致的视频，并且当前若干版本接受 1 to 7 张 PNG、JPEG、JPG 或 WebP 格式图像。[2]

这正是本档案的核心。通用文生视频输入框要求用户描述一个画面，然后期待模型维持身份、服装、物体形状和视觉风格的稳定。参考生视频改变了这份契约。它让工作流可以从已经存在的资产开始：角色设定图、产品照片、营销视觉、道具、地点参考，或品牌风格。模型仍要生成运动、节奏、光线、相机路径和画面连续性，但起点已经不再是纯语言。

这对中国 AI 很重要，因为视频生成最有商业穿透力的入口，落在“用已知材料做出许多可用短片”上，不只是“从零做出一条漂亮短片”。广告、短剧、游戏预演、动画测试、教育内容和文旅宣传，都从约束开始。它们需要同一张脸换个角度仍然成立，同一件产品继续可识别，或同一个物体移动时不丢失身份。因此，Vidu 的参考工作流既是模型线索，也是企业级线索。[1][2]

音频把短片变成场景

第二个信号是音频。生数科技的 Q3 发布重点提到同步音视频、背景音乐、音效和多语言对白。[1] API 更新页面呈现出同一方向，而且它是一种产品节奏，不只是一日发布。November 13, 2025，Vidu 为 Reference-to-Video 和 Image-to-Video 增加了直接音视频输出，包括主体和台词参数；它还增加了数字人能力，可以把上传的人物图像与文本或语音输入结合起来。[3]

这一动作的分量比表层功能更大。无声 AI 视频可以用于情绪板、动态缩略图和短社交素材，但剪辑负担仍留在模型之外。一旦语音、音效和特定主体台词进入同一条生成路径，产品就更接近场景生产。它可以支持广告变体、角色片段、说话头像、多语言营销版本和对白预演。风险在于，生成音频也会放大错误：说话人分配错误、不自然的节奏、语言错配，或音频让原本还成立的短片露出更重的合成感。但战略方向已经清楚。生数追逐的不只是更漂亮的画面，它还在尝试把视觉连续性和声音连续性绑进同一次生成任务。[1][3]

定价让工作流变得可读

第三个信号是定价。Vidu 定价页面仍然展示较早的 Q1 和 Q2 阶梯，这一点有用，因为它显示了公司如何把视频理解为按量计费的生产工作。例如，Q1 1080p reference-to-video 的 5 秒任务标价 $0.4；Q2 reference-to-video 中，540p 从 $0.075 加 $0.025/sec 起，720p 从 $0.125 加 $0.025/sec 起，1080p 从 $0.375 加 $0.05/sec 起。[4] Q2-Pro reference-to-video 随后进入更高档位，1080p 从 $0.425 加 $0.05/sec 起。[4]

这些数字会变化，Q3 的经济安排也会经由不同合作方入口来呈现。这里真正重要的是计价方式。它让买方理解，AI 视频不是单纯的订阅玩具，也不是无限量的魔法生成器。它是一种有成本的操作，时长、分辨率、质量档位和参考复杂度都会成为预算变量。对企业团队而言，这就是实际采用时会遇到的门槛。一个模型可以在发布视频里看起来出色，但如果每一秒可用视频的成本难以预测，采购仍会受阻。Vidu 的公开定价页，让这种取舍更容易被检查。

分发也是模型故事的一部分

Vidu 早期公开叙事已经带有全球属性。2024 年世界互联网大会/新华社的一篇文章写到，由生数科技和清华大学研发的 Vidu 面向全球可用，具备文生视频和图生视频功能；文章还提到，当时可触达的产品形态是 4 秒和 8 秒 1080p 生成。[5] 到 2026 年 Q3 发布时，公司谈的已经不只是访问入口。它谈的是全球创作者、企业、API 交付、SaaS、MaaS，以及阿里云 Model Studio 集成。[1]

这层变化，是公司档案里的重要点。生数没有快手自有社交流量，也没有字节跳动的全球应用和云服务组合。它可见的策略因此更依赖渠道：发布强产品界面，让 API 保持清晰，进入云平台和创作者平台，并让 Vidu 在生产团队已经工作的地方更容易购买。阿里云集成尤其相关，因为它把 Vidu 放进更宽的中国模型市场，而不要求每个买方都直接发现生数。[1]

清华关联又增加了一层。生数与清华关于 TurboDiffusion 的公告，把加速描述为提升效率、降低创作和部署成本、推动生成式 AI 真实采用的一种方式；发布稿还称，生数成立于 March 2023，Vidu 已覆盖超过 200 countries and regions。[6] 每一项性能声明是否经得起独立基准测试，在这里居于次要位置。运营意图更值得看：生数正在围绕输出时间和输出成本竞争，而不只围绕图像质量竞争。

边界

明显的制衡因素在于，AI 视频仍然脆弱。参考图像可以在一个场景中保住身份，在另一个镜头角度下失效。音频可以让短片显得更完整，也可以更残酷地暴露节奏错误。短时长适合广告和社交素材，但对长叙事连续性仍然偏薄。公开发布声明和排名也需要谨慎处理，因为提示词选择、采样设置、审核过滤和精选样例，都会改变外界感知到的质量。

因此，证伪条件很直接。如果 Vidu 的参考工作流主要停留在展示惊艳单例的图库功能上，这篇档案就给得过厚。如果团队能够反复把已知资产转成 8 到 16 秒场景，并获得可预期成本、可复用音频行为和 API 级集成，那么生数就在 AI-China 视频栈中拥有真实位置。它的胜出不会只来自模型生成了更漂亮的短片，而会来自它让参考控制的视频生产，变成买方能够围绕它做计划的一件工具。[1][2][3][4]

cronfeed.work

Vidu 正把参考素材变成生数科技的视频生产线

公司线索落在参考控制上

音频把短片变成场景

定价让工作流变得可读

分发也是模型故事的一部分

边界

来源

Recommended In ai china