截至 2026-06-18 UTC,观察生数科技的 Vidu,更有效的方式,是先放下“又一个中国版 Sora 竞争者”的样片比较。AI-China 里更尖锐的线索,是 Vidu 正被包装成一条生产线:参考资产进入系统,短场景带着运动、镜头变化、音频、定价和 API 交付一起产出。AI 视频竞争正在离开孤立的文生视频奇观,转向可重复的创意作业。

生数科技在 2026 年 4 月发布的 Vidu Q3 Reference-to-Video,让这家公司命题变得格外清楚。公告称,Q3 支持最长 16 seconds 的音视频同步生成、多镜头组合、相机控制、背景音乐和音效,以及多语言对白;公告还称,Vidu 已通过 MaaS/API 和 SaaS 形式面向全球开放,并已集成进阿里云 Model Studio,用于文生视频、图生视频和参考生视频生成。[1] 这些细节比发布时的排名表述更重要。它们显示出生数希望把产品放在哪里:不只放在演示流里,也放进创作者、代理机构、工作室和企业需要复用主体一致性的工作流中。

配图说明:封面使用 Wikimedia Commons 上一张北京清华大学科学馆的真实照片。它是一张摄影图片,区别于生成图、示意图、基准测试图表或产品渲染图。这里的连接来自制度关系,超出装饰用途:Vidu 曾被公开描述为生数科技与清华大学共同研发的模型,后来围绕 TurboDiffusion 的加速工作也被呈现为生数-清华合作。[5][6][7]

公司线索落在参考控制上

Vidu 当前的 API 文档,读起来像一张 AI 视频厂商正在处理的控制问题清单。Reference-to-Video 端点接受多个模型版本,包括 viduq3-mixviduq3-turboviduq3viduq2-providuq2viduq1vidu2.0;Q3 版本强调智能场面或镜头切换、音视频同时输出,以及不同机位之间的一致性。[2] 同一份文档还写明,可以提供参考图像,让模型生成主体一致的视频,并且当前若干版本接受 1 to 7 张 PNG、JPEG、JPG 或 WebP 格式图像。[2]

这正是本档案的核心。通用文生视频输入框要求用户描述一个画面,然后期待模型维持身份、服装、物体形状和视觉风格的稳定。参考生视频改变了这份契约。它让工作流可以从已经存在的资产开始:角色设定图、产品照片、营销视觉、道具、地点参考,或品牌风格。模型仍要生成运动、节奏、光线、相机路径和画面连续性,但起点已经不再是纯语言。

这对中国 AI 很重要,因为视频生成最有商业穿透力的入口,落在“用已知材料做出许多可用短片”上,不只是“从零做出一条漂亮短片”。广告、短剧、游戏预演、动画测试、教育内容和文旅宣传,都从约束开始。它们需要同一张脸换个角度仍然成立,同一件产品继续可识别,或同一个物体移动时不丢失身份。因此,Vidu 的参考工作流既是模型线索,也是企业级线索。[1][2]

音频把短片变成场景

第二个信号是音频。生数科技的 Q3 发布重点提到同步音视频、背景音乐、音效和多语言对白。[1] API 更新页面呈现出同一方向,而且它是一种产品节奏,不只是一日发布。November 13, 2025,Vidu 为 Reference-to-Video 和 Image-to-Video 增加了直接音视频输出,包括主体和台词参数;它还增加了数字人能力,可以把上传的人物图像与文本或语音输入结合起来。[3]

这一动作的分量比表层功能更大。无声 AI 视频可以用于情绪板、动态缩略图和短社交素材,但剪辑负担仍留在模型之外。一旦语音、音效和特定主体台词进入同一条生成路径,产品就更接近场景生产。它可以支持广告变体、角色片段、说话头像、多语言营销版本和对白预演。风险在于,生成音频也会放大错误:说话人分配错误、不自然的节奏、语言错配,或音频让原本还成立的短片露出更重的合成感。但战略方向已经清楚。生数追逐的不只是更漂亮的画面,它还在尝试把视觉连续性和声音连续性绑进同一次生成任务。[1][3]

定价让工作流变得可读

第三个信号是定价。Vidu 定价页面仍然展示较早的 Q1 和 Q2 阶梯,这一点有用,因为它显示了公司如何把视频理解为按量计费的生产工作。例如,Q1 1080p reference-to-video 的 5 秒任务标价 $0.4;Q2 reference-to-video 中,540p 从 $0.075$0.025/sec 起,720p 从 $0.125$0.025/sec 起,1080p 从 $0.375$0.05/sec 起。[4] Q2-Pro reference-to-video 随后进入更高档位,1080p 从 $0.425$0.05/sec 起。[4]

这些数字会变化,Q3 的经济安排也会经由不同合作方入口来呈现。这里真正重要的是计价方式。它让买方理解,AI 视频不是单纯的订阅玩具,也不是无限量的魔法生成器。它是一种有成本的操作,时长、分辨率、质量档位和参考复杂度都会成为预算变量。对企业团队而言,这就是实际采用时会遇到的门槛。一个模型可以在发布视频里看起来出色,但如果每一秒可用视频的成本难以预测,采购仍会受阻。Vidu 的公开定价页,让这种取舍更容易被检查。

分发也是模型故事的一部分

Vidu 早期公开叙事已经带有全球属性。2024 年世界互联网大会/新华社的一篇文章写到,由生数科技和清华大学研发的 Vidu 面向全球可用,具备文生视频和图生视频功能;文章还提到,当时可触达的产品形态是 4 秒和 8 秒 1080p 生成。[5] 到 2026 年 Q3 发布时,公司谈的已经不只是访问入口。它谈的是全球创作者、企业、API 交付、SaaS、MaaS,以及阿里云 Model Studio 集成。[1]

这层变化,是公司档案里的重要点。生数没有快手自有社交流量,也没有字节跳动的全球应用和云服务组合。它可见的策略因此更依赖渠道:发布强产品界面,让 API 保持清晰,进入云平台和创作者平台,并让 Vidu 在生产团队已经工作的地方更容易购买。阿里云集成尤其相关,因为它把 Vidu 放进更宽的中国模型市场,而不要求每个买方都直接发现生数。[1]

清华关联又增加了一层。生数与清华关于 TurboDiffusion 的公告,把加速描述为提升效率、降低创作和部署成本、推动生成式 AI 真实采用的一种方式;发布稿还称,生数成立于 March 2023,Vidu 已覆盖超过 200 countries and regions。[6] 每一项性能声明是否经得起独立基准测试,在这里居于次要位置。运营意图更值得看:生数正在围绕输出时间和输出成本竞争,而不只围绕图像质量竞争。

边界

明显的制衡因素在于,AI 视频仍然脆弱。参考图像可以在一个场景中保住身份,在另一个镜头角度下失效。音频可以让短片显得更完整,也可以更残酷地暴露节奏错误。短时长适合广告和社交素材,但对长叙事连续性仍然偏薄。公开发布声明和排名也需要谨慎处理,因为提示词选择、采样设置、审核过滤和精选样例,都会改变外界感知到的质量。

因此,证伪条件很直接。如果 Vidu 的参考工作流主要停留在展示惊艳单例的图库功能上,这篇档案就给得过厚。如果团队能够反复把已知资产转成 8 到 16 秒场景,并获得可预期成本、可复用音频行为和 API 级集成,那么生数就在 AI-China 视频栈中拥有真实位置。它的胜出不会只来自模型生成了更漂亮的短片,而会来自它让参考控制的视频生产,变成买方能够围绕它做计划的一件工具。[1][2][3][4]

来源

  1. Shengshu Technology, "ShengShu Launches Vidu Q3 Reference-to-Video with Expanded Visual and Audio Capabilities"(2026 年 4 月;Q3 Reference-to-Video、16 秒同步音视频、相机控制、多语言对白、SaaS/MaaS,以及阿里云 Model Studio 集成)。
  2. Vidu API, "Reference to Video" 文档(模型版本、Q3 相机/音频行为、参考图像输入、支持的图像格式,以及一致性框架)。
  3. Vidu API, "Update Notice"(2025 年更新节奏,包括直接音视频输出、主体台词参数、数字人能力、多帧 API、视频替换,以及更长的 Q2 时长)。
  4. Vidu API, "Pricing"(图生视频、文生视频、参考生视频和视频扩展在 Q1/Q2 档位中的公开积分与美元定价阶梯)。
  5. World Internet Conference/Xinhua, "Chinese companies develop AI video generation technology"(2024 年 8 月;Vidu 全球可用性、生数-清华起点、文生/图生视频功能,以及早期 1080p 时长框架)。
  6. Shengshu Technology and Tsinghua University, "Unveil TurboDiffusion"(2026 年 1 月;生数-清华加速工作、效率/成本框架、公司成立日期、Vidu 覆盖范围,以及 Vidu API 可用性)。
  7. Wikimedia Commons, "File:Science Building of Tsinghua University.JPG" by Soramimi(本文封面所用 2015 年清华大学真实照片的来源页面)。