截至 2026-06-11 UTC,观看 CNBC 的 "Squawk Box Asia tests Baidu AI Video Generator real-time" 片段,真正有用的观看方式,超出给某个演示 prompt 是否显得神奇下定论。[1] 这段视频的价值在于,它把百度的产品定位放进普通商业新闻直播的压力之下:一个现场财经新闻台尝试 MuseSteamer,等待输出,同时还要解释这个产品究竟承担什么任务,而生成器的表现更接近真实服务,少了发布会成片里的抛光感。这种不整齐正是观察点。它显示出 MuseSteamer 与其说是消费娱乐应用,不如说是一项仍要取得信任的工作流主张。

文字来源链条支持这种更窄的读法。LiveMint 在引用 Reuters 信息时报道,百度推出 MuseSteamer,是作为一款面向企业的 AI-driven video tool,公共消费应用暂未开放;其图像生成视频模型可以制作最长 10 seconds 的短片,版本包括 Turbo, Pro, and Lite。[2] EMARKETER 也把同一发布描述为面向商业场景的图像生成视频工具,并将其放在百度搜索改版旁边考察:更长查询、语音和图像输入,都指向一个更宽的多模态产品转向。[3] 百度自己的投资者概览给出了公司层面的框架:百度把自己描述为一家 AI 公司,完整技术栈从云基础设施和 PaddlePaddle,延伸到 ERNIE 基础模型与应用。[4]

这对 ai-china 话题很重要,因为百度经常被放进失准的比较组里。若 MuseSteamer 只被看作中国版 Sora 或 Veo,分析会收缩成短片审美。若把它放回百度的企业技术栈里,更尖锐的问题就浮出来了:一张静态图能否变成带同步中文语音和效果的短视频?产品能否适配营销人员、商家、教育团队和企业内部媒体团队,这些用户想避开完整制作管线?同一笔更新搜索的 AI 投入,能否同时创造一个企业真正能接入的媒体生成界面?[2][3][4]

图像语境:封面使用 Wikimedia Commons 上一张真实照片,拍的是百度位于北京上地、2009 年建成并于 2022 年拍摄的“搜索框”总部。这张照片有意保留机构感:本文讨论的是百度试图把生成式视频转化为公司层级的应用界面,超出某个合成示例短片。[5]

现场测试有用之处,在于拒绝发布视频的光滑感

CNBC 这段节目值得关注,因为它做了多数厂商演示会避开的事:让观看者感受到承诺与使用之间的摩擦。[1] 精修发布视频可以剪掉延迟、失败 prompt、薄弱输出和让人困惑的控制项。直播或接近直播的台面测试,遮蔽空间少得多。主播必须描述正在看到的东西,等待结果,并解释百度为什么要提供这个产品。

这让视频成为一个有用的带注释对象。核心信号离开任何单个 prompt 是否产出了一段能通过广告导演审片的短片,转向百度正在把这项任务定义为 business video creation from lightweight inputs。LiveMint 的发布报道明确写到,MuseSteamer 当时限制为商业用途,发布时尚未提供面向公众消费者的版本。[2] EMARKETER 也通过对比指出,相较于更偏消费友好的竞争产品,百度这款工具的定位和营销都面向企业。[3]

放在这些文字来源旁边看,CNBC 测试就不再像一个新奇片段。它变成了对产品类别的压力测试。商业用户关心输出质量,也关心可重复性、周转时间、prompt 预期、账号访问,以及生成媒体能否进入既有活动或沟通工作流。因此,MuseSteamer 首先背负的是实践层面的战略任务:把短小、同步的片段做得足够稳定,稳定到可以被反复使用。

音频主张才是真正的本地市场信号

MuseSteamer 故事里最有辨识度的部分,远远超出图像生成视频。到 2025 年中,这一类别已经拥挤。更尖锐的主张是同步中文对白、音效与画面,从一张静态图或轻量创意输入中一起生成;百度公开社交帖子和新闻报道对这次发布的描述,也把重点放在这里。[2][3] 因此,中文视频产品已经超出全球功能本地复制的层面。语音、唇形时序、环境声和图像运动必须作为一个包抵达时,真正要完成的工作单元已经改变。

对中国广告主和商业创作者而言,这个包很重要。无声或只配松散字幕的短片可以服务社交流,但许多企业视频任务需要声音、节奏和场景逻辑对齐。一个讲解商品的商家,一个制作短广告的本地服务提供者,或一个把海报转成口播短片的内部培训团队,都面对同一种协调问题:画面只是交付物的一半。声音和语音决定输出是成片,还是还要再走一遍制作。

CNBC 的视频在这里有用,因为它让产品少了一层抽象感。[1] 台面测试提出了一个基本问题:如果广播节目可以在直播中要求一个场景并收到一段生成结果,那么真实团队要依赖这个系统之前,还需要什么?所需条件落在可管理的声音、预期稳定的中文措辞、权利边界清晰的素材、导出格式、审阅工具,以及明确的企业账号治理上。百度的企业定位因此进入核心信息,成为实施负担的一条线索。[2][4]

搜索整合改变了竞争框架

MuseSteamer 与百度搜索的一次重大改版同时推出,这种并置不宜被看成发布会巧合。[2][3] LiveMint 报道称,更新后的搜索界面接受更长、更复杂的输入,并整合语音和图像查询;EMARKETER 也把同一动作概括为向更长查询和多模态输入转移。[2][3] 从产品角度看,百度当时表达的内容超出“我们可以生成视频”。它同时在说:“我们的搜索和应用界面正在一起变得更加多模态。”

这种并置之所以重要,是因为百度的主场优势超出模型研究。它还在意图捕获。搜索看见问题、商业需求、本地服务、商品发现和企业需求。若 MuseSteamer 能贴近这一意图层,产品就能少一些空白创意工作室的意味,更多成为一个转化界面:用户或企业表达意图,百度加以解释,生成式媒体成为一种输出结果。

这正是 MuseSteamer 与独立创作者应用的差别。创作者应用必须把用户拉进一种新习惯。与搜索或企业系统相连的媒体工具,可以借用既有需求:活动文案、商品图片、搜索结果、本地商户信息、账号仪表盘和云服务。百度投资者概览描述的公司版图,横跨消费应用、AI Cloud、AI 应用、开发者、企业和全栈 AI 基础设施。[4] 对照这张地图,MuseSteamer 变得更有意思。它是更广阔商业系统中的一个媒体输出节点。

只面向企业的边界既是强项,也是约束

只面向企业的发布边界,为 MuseSteamer 提供了更清晰的初始客户,同时也抬高了门槛。消费级视频生成器可以依靠惊喜感、试验和社交分享存活。企业工具必须经受采购逻辑。它们需要稳定定价、工作流文档、审核、数据处理、输出审阅、权利边界和支持服务。十秒短片再耀眼,若品牌团队无法复现风格、批准对白,或理解系统使用了哪些材料,也不足以成为工作工具。

因此,CNBC 测试更适合被看作一次开场测量,区别于终局评测。[1] 它显示工具进入公共注意力,但没有证明可靠性。LiveMint 给出了重要产品事实:最长十秒、三个版本、商业用途,以及发布时没有面向公众消费者的版本。[2] EMARKETER 补充了市场框架:百度进入的是拥挤的 AI 视频类别,同时又试图把该工具连接到更大的数字视频和搜索转向之中。[3] 百度自己的概览解释了公司为什么会想要这种连接:AI 能力要在其技术栈中驱动产品、服务和企业应用。[4]

较积极的读法是,百度选择了一条商业纪律更强的路径。MuseSteamer 的起点没有放在消费端病毒传播上,产品调校围绕营销和企业媒体任务展开;在这些场景里,十秒长度、中文对白和预期稳定的短视频输出,都有清晰用途。谨慎的读法是,这条路线要求苛刻。企业比较对象不只包括对手 AI 生成器,也包括自由职业者、代理机构、模板工具和已经跑通的普通短视频工作流。

这段视频提示接下来该看什么

这段节目的核心启示是,MuseSteamer 应被当作工作流产品来评估。[1] 接下来更有用的证据,来自更清楚的企业入门文档、资产控制、prompt 模板、品牌安全审阅、API 或云集成,以及百度能否以可衡量方式把生成短片连接到广告或搜索界面。只面向企业的主张,正是在这些地方变成优势,或退回成一个狭窄的发布标签。

有两个测试最重要。第一,百度能否把同步中文音频做到足够可靠,使用户不用在别处重建声轨?若能做到,MuseSteamer 就掌握了成片管线中更大的一段。第二,这个工具能否连接到百度更广的 AI 与搜索生态,避免停留在独立演示页?若能做到,产品就成为分发系统的一部分,脱离孤身竞争的短片生成器位置。[2][3][4]

眼下,合适的结论应当保持克制。MuseSteamer 的重要性,来源于这次 CNBC 测试所暴露的产品形状,并避开对百度已经解决 AI 视频的证明:面向商业工作流的、短小的、同步的中文视频生成,并且连接到一家仍然掌握搜索、云、基础模型和企业应用的公司。AI-China 的信号不落在某段完美短片上,而落在百度正在尝试让生成视频成为其运行技术栈的又一种输出上。

来源

  1. CNBC, "Squawk Box Asia tests Baidu AI Video Generator real-time," YouTube video.
  2. Govind Choudhary, LiveMint, "Baidu responds to Sora and other rivals with MuseSteamer and AI-enhanced search features" (July 2, 2025; Reuters-backed launch facts, business-user positioning, 10-second clips, Turbo/Pro/Lite versions, and search revamp).
  3. Jeremy Goldman, EMARKETER, "Baidu launches the latest in a long line of AI video generators" (July 2, 2025; business-oriented positioning, enterprise contrast, and multimodal search context).
  4. Baidu Inc., "Company Overview" (official investor page describing Baidu's AI stack, search investment, cloud infrastructure, PaddlePaddle, ERNIE foundation models, applications, users, developers, and enterprises).
  5. Wikimedia Commons, "File:Baidu headquarters at Shangdi (20220509112439).jpg" by N509FZ (source page for the real 2022 photograph used as the article image).