截至 2026-06-11 UTC,观看 CNBC 的 "Squawk Box Asia tests Baidu AI Video Generator real-time" 片段,真正有用的观看方式,超出给某个演示 prompt 是否显得神奇下定论。[1] 这段视频的价值在于,它把百度的产品定位放进普通商业新闻直播的压力之下:一个现场财经新闻台尝试 MuseSteamer,等待输出,同时还要解释这个产品究竟承担什么任务,而生成器的表现更接近真实服务,少了发布会成片里的抛光感。这种不整齐正是观察点。它显示出 MuseSteamer 与其说是消费娱乐应用,不如说是一项仍要取得信任的工作流主张。
文字来源链条支持这种更窄的读法。LiveMint 在引用 Reuters 信息时报道,百度推出 MuseSteamer,是作为一款面向企业的 AI-driven video tool,公共消费应用暂未开放;其图像生成视频模型可以制作最长 10 seconds 的短片,版本包括 Turbo, Pro, and Lite。[2] EMARKETER 也把同一发布描述为面向商业场景的图像生成视频工具,并将其放在百度搜索改版旁边考察:更长查询、语音和图像输入,都指向一个更宽的多模态产品转向。[3] 百度自己的投资者概览给出了公司层面的框架:百度把自己描述为一家 AI 公司,完整技术栈从云基础设施和 PaddlePaddle,延伸到 ERNIE 基础模型与应用。[4]
这对 ai-china 话题很重要,因为百度经常被放进失准的比较组里。若 MuseSteamer 只被看作中国版 Sora 或 Veo,分析会收缩成短片审美。若把它放回百度的企业技术栈里,更尖锐的问题就浮出来了:一张静态图能否变成带同步中文语音和效果的短视频?产品能否适配营销人员、商家、教育团队和企业内部媒体团队,这些用户想避开完整制作管线?同一笔更新搜索的 AI 投入,能否同时创造一个企业真正能接入的媒体生成界面?[2][3][4]
图像语境:封面使用 Wikimedia Commons 上一张真实照片,拍的是百度位于北京上地、2009 年建成并于 2022 年拍摄的“搜索框”总部。这张照片有意保留机构感:本文讨论的是百度试图把生成式视频转化为公司层级的应用界面,超出某个合成示例短片。[5]
现场测试有用之处,在于拒绝发布视频的光滑感
CNBC 这段节目值得关注,因为它做了多数厂商演示会避开的事:让观看者感受到承诺与使用之间的摩擦。[1] 精修发布视频可以剪掉延迟、失败 prompt、薄弱输出和让人困惑的控制项。直播或接近直播的台面测试,遮蔽空间少得多。主播必须描述正在看到的东西,等待结果,并解释百度为什么要提供这个产品。
这让视频成为一个有用的带注释对象。核心信号离开任何单个 prompt 是否产出了一段能通过广告导演审片的短片,转向百度正在把这项任务定义为 business video creation from lightweight inputs。LiveMint 的发布报道明确写到,MuseSteamer 当时限制为商业用途,发布时尚未提供面向公众消费者的版本。[2] EMARKETER 也通过对比指出,相较于更偏消费友好的竞争产品,百度这款工具的定位和营销都面向企业。[3]
放在这些文字来源旁边看,CNBC 测试就不再像一个新奇片段。它变成了对产品类别的压力测试。商业用户关心输出质量,也关心可重复性、周转时间、prompt 预期、账号访问,以及生成媒体能否进入既有活动或沟通工作流。因此,MuseSteamer 首先背负的是实践层面的战略任务:把短小、同步的片段做得足够稳定,稳定到可以被反复使用。
音频主张才是真正的本地市场信号
MuseSteamer 故事里最有辨识度的部分,远远超出图像生成视频。到 2025 年中,这一类别已经拥挤。更尖锐的主张是同步中文对白、音效与画面,从一张静态图或轻量创意输入中一起生成;百度公开社交帖子和新闻报道对这次发布的描述,也把重点放在这里。[2][3] 因此,中文视频产品已经超出全球功能本地复制的层面。语音、唇形时序、环境声和图像运动必须作为一个包抵达时,真正要完成的工作单元已经改变。
对中国广告主和商业创作者而言,这个包很重要。无声或只配松散字幕的短片可以服务社交流,但许多企业视频任务需要声音、节奏和场景逻辑对齐。一个讲解商品的商家,一个制作短广告的本地服务提供者,或一个把海报转成口播短片的内部培训团队,都面对同一种协调问题:画面只是交付物的一半。声音和语音决定输出是成片,还是还要再走一遍制作。
CNBC 的视频在这里有用,因为它让产品少了一层抽象感。[1] 台面测试提出了一个基本问题:如果广播节目可以在直播中要求一个场景并收到一段生成结果,那么真实团队要依赖这个系统之前,还需要什么?所需条件落在可管理的声音、预期稳定的中文措辞、权利边界清晰的素材、导出格式、审阅工具,以及明确的企业账号治理上。百度的企业定位因此进入核心信息,成为实施负担的一条线索。[2][4]
搜索整合改变了竞争框架
MuseSteamer 与百度搜索的一次重大改版同时推出,这种并置不宜被看成发布会巧合。[2][3] LiveMint 报道称,更新后的搜索界面接受更长、更复杂的输入,并整合语音和图像查询;EMARKETER 也把同一动作概括为向更长查询和多模态输入转移。[2][3] 从产品角度看,百度当时表达的内容超出“我们可以生成视频”。它同时在说:“我们的搜索和应用界面正在一起变得更加多模态。”
这种并置之所以重要,是因为百度的主场优势超出模型研究。它还在意图捕获。搜索看见问题、商业需求、本地服务、商品发现和企业需求。若 MuseSteamer 能贴近这一意图层,产品就能少一些空白创意工作室的意味,更多成为一个转化界面:用户或企业表达意图,百度加以解释,生成式媒体成为一种输出结果。
这正是 MuseSteamer 与独立创作者应用的差别。创作者应用必须把用户拉进一种新习惯。与搜索或企业系统相连的媒体工具,可以借用既有需求:活动文案、商品图片、搜索结果、本地商户信息、账号仪表盘和云服务。百度投资者概览描述的公司版图,横跨消费应用、AI Cloud、AI 应用、开发者、企业和全栈 AI 基础设施。[4] 对照这张地图,MuseSteamer 变得更有意思。它是更广阔商业系统中的一个媒体输出节点。
只面向企业的边界既是强项,也是约束
只面向企业的发布边界,为 MuseSteamer 提供了更清晰的初始客户,同时也抬高了门槛。消费级视频生成器可以依靠惊喜感、试验和社交分享存活。企业工具必须经受采购逻辑。它们需要稳定定价、工作流文档、审核、数据处理、输出审阅、权利边界和支持服务。十秒短片再耀眼,若品牌团队无法复现风格、批准对白,或理解系统使用了哪些材料,也不足以成为工作工具。
因此,CNBC 测试更适合被看作一次开场测量,区别于终局评测。[1] 它显示工具进入公共注意力,但没有证明可靠性。LiveMint 给出了重要产品事实:最长十秒、三个版本、商业用途,以及发布时没有面向公众消费者的版本。[2] EMARKETER 补充了市场框架:百度进入的是拥挤的 AI 视频类别,同时又试图把该工具连接到更大的数字视频和搜索转向之中。[3] 百度自己的概览解释了公司为什么会想要这种连接:AI 能力要在其技术栈中驱动产品、服务和企业应用。[4]
较积极的读法是,百度选择了一条商业纪律更强的路径。MuseSteamer 的起点没有放在消费端病毒传播上,产品调校围绕营销和企业媒体任务展开;在这些场景里,十秒长度、中文对白和预期稳定的短视频输出,都有清晰用途。谨慎的读法是,这条路线要求苛刻。企业比较对象不只包括对手 AI 生成器,也包括自由职业者、代理机构、模板工具和已经跑通的普通短视频工作流。
这段视频提示接下来该看什么
这段节目的核心启示是,MuseSteamer 应被当作工作流产品来评估。[1] 接下来更有用的证据,来自更清楚的企业入门文档、资产控制、prompt 模板、品牌安全审阅、API 或云集成,以及百度能否以可衡量方式把生成短片连接到广告或搜索界面。只面向企业的主张,正是在这些地方变成优势,或退回成一个狭窄的发布标签。
有两个测试最重要。第一,百度能否把同步中文音频做到足够可靠,使用户不用在别处重建声轨?若能做到,MuseSteamer 就掌握了成片管线中更大的一段。第二,这个工具能否连接到百度更广的 AI 与搜索生态,避免停留在独立演示页?若能做到,产品就成为分发系统的一部分,脱离孤身竞争的短片生成器位置。[2][3][4]
眼下,合适的结论应当保持克制。MuseSteamer 的重要性,来源于这次 CNBC 测试所暴露的产品形状,并避开对百度已经解决 AI 视频的证明:面向商业工作流的、短小的、同步的中文视频生成,并且连接到一家仍然掌握搜索、云、基础模型和企业应用的公司。AI-China 的信号不落在某段完美短片上,而落在百度正在尝试让生成视频成为其运行技术栈的又一种输出上。
来源
- CNBC, "Squawk Box Asia tests Baidu AI Video Generator real-time," YouTube video.
- Govind Choudhary, LiveMint, "Baidu responds to Sora and other rivals with MuseSteamer and AI-enhanced search features" (July 2, 2025; Reuters-backed launch facts, business-user positioning, 10-second clips, Turbo/Pro/Lite versions, and search revamp).
- Jeremy Goldman, EMARKETER, "Baidu launches the latest in a long line of AI video generators" (July 2, 2025; business-oriented positioning, enterprise contrast, and multimodal search context).
- Baidu Inc., "Company Overview" (official investor page describing Baidu's AI stack, search investment, cloud infrastructure, PaddlePaddle, ERNIE foundation models, applications, users, developers, and enterprises).
- Wikimedia Commons, "File:Baidu headquarters at Shangdi (20220509112439).jpg" by N509FZ (source page for the real 2022 photograph used as the article image).