百度那支数字人短片，真正卖出的是服务前台：一篇带注释观看，重看垂直知识、声音可信度与可部署的在场

这张百度科技园实景照片适合本文，因为视频最终讨论的是机构化部署。数字人之所以成立，前提是它能挂接到真实公司的技术栈、真实行业流程与可重复交付的服务表面上。

截至 2026-04-12 UTC，回看百度智能云在 2023 年 10 月 10 日发布的 40 秒短片 《Baidu Digital Humans Now Blend General And Domain-Specific Expertise》，最值得抓住的入口，不在“它做得像不像真人”这一层。[1] 脸部质感重要，唇形同步重要，整段视频的超写实表面当然也重要，但真正把整支片子转向另一层含义的，是标题里那句更具体的话：通识能力与领域能力被压进了同一个数字人表面。[1]

这比“我们的头像更逼真”要窄得多，也更有意思。把时间推到 2026 年 再看，百度自己后来放出的材料，反而把这个读法补得更完整。到了 2025 年 8 月 5 日 的 Baidu AI Day，百度智能云已经把第一批 AI 数字员工摆到台前，岗位直接落在营销经理、还款助理、汽车销售、招聘顾问等垂直职能上，并明确把它们定义成大模型、数字人技术与行业 Know-How 的结合体。[2] 2025 年 6 月 23 日那篇引用 IDC 2024 年中国 AI 数字人市场报告的官方文章，又把曦灵写成一套覆盖 2D 真人、3D 超写实数字人、声音克隆、98.5% 唇形驱动准确率、20+ 行业与公有云/私有云/混合云部署方式的全模态平台。[3] 这些材料和 2023 年那支短片并排放在一起，方向就很稳了：百度并非先追逐头像奇观，再考虑商业化；它更像是在提前搭建一块人形服务前台。

非娱乐场景更能把这件事说明白。百度智能云的 AI 手语主播案例页写得很清楚：第一版产品在 2021 年 11 月 24 日上线，后来进入冬奥新闻播报，也延伸到博物馆讲解这样的文化服务场景。[4] 另一篇发表于 2024 年 12 月 2 日的百度智能云文章则把技术经济账说得更直接，大模型把 3D 数字人的制作成本从百万元级压向万元级，把制作周期从按月计算压到按小时计算。[5] 顺着这些材料再回看视频，数字人的真正价值就不再落在“像一个人”，而是落在“能不能带着专业知识、交互能力与流程接口，站进一个真实岗位里”。这也是本文的核心判断：百度想让观众把数字人理解成一种可部署的前台界面，它看起来像人，发声像人，真正值钱的地方却在于它能够承接垂直业务中的解释、问答、引导与持续在场。[1][2][3][4][5]

配图说明：题图使用的是 Wikimedia Commons 上百度科技园二期的真实照片。这里需要真实园区照片，因为本文讨论的是一条公司级交付路径，而并非某个悬浮的虚拟形象。视频里的承诺只有在背后存在真实机构、真实技术栈与真实行业交付能力时，才会成立。[6]

到 0:00 到 0:10 左右，超写实只是入口，它还并非成交理由

视频开头先把注意力压在脸、声音和表面质感上。[1] 这个动作很必要。数字人如果一上来就显得僵硬、空洞或难以亲近，它根本进不了服务场景。百度 2025 年 6 月那篇市场份额文章，正好把这一层拆成产品能力：4D 扫描、1200 个维度的人脸还原、影视级效果、高保真声音克隆，以及高精度唇形驱动。[3]

但也正因为如此，视频真正重要的判断并不止于“做得像”。“像”只是通行证，用来降低用户对一个人形界面的第一层抗拒。更重要的，是这个看上去可信的“人”能不能被塞进一条企业流程里，替一家公司、一个机构、一个具体岗位持续说话、持续解释、持续接待。在 AI-China 的语境里，它被当成一种可用的服务界面在卖，艺术化展示只是进入这条路径的外壳。[1][3]

到 0:10 到 0:22 左右，“通识能力 + 领域能力”这句话把头像变成了岗位

这就是整支片子的转轴。[1] 一旦百度把数字人定义成大模型通识能力与垂直知识的结合体，它就不再只是一个会动的形象，而开始接近一种劳动单元。到了 2025 年 AI Day，百度把这条逻辑彻底说开：它没有停在抽象的万能助手层面，而是直接推出营销经理、还款助理、招聘顾问、课程顾问、汽车销售等岗位化的数字员工。[2]

这一步很关键，因为它回答了许多数字人演示一直没有正面回答的问题。企业为什么要买一个人形界面，而并非买一个聊天窗口、一段固定脚本或者一套普通客服系统？百度给出的答案是，数字人正好站在展示、对话与专业判断交汇的地方。它可以解释、应答、引导、升级话术，也可以把互动保持在一种用户原本就熟悉的“有人在服务我”的形态里。[1][2]

到 0:22 到 0:32 左右，电商与文化场景透露出真正的入市路径

这支短片没有把镜头钉死在单一 benchmark 上，而是很快扫过几个场景。[1] 这个剪法本身就很说明问题。百度在证明另一件事：同一套底层能力可以换皮进入电商、文化导览、客户服务与公共传播。AI 手语主播的案例尤其重要，因为它把数字人的用途从营销场景里拉了出来。它进入了新闻直播、冬奥报道、博物馆讲解与无障碍服务，这时数字人就不再像一件广告玩具，而更像一层可复用的交互基础设施。[4]

本文最核心的推断，也落在这里。百度已经把重心放在更可落地的层面：数字人在中国市场里更容易成立的时刻，往往出现在它准确接入现实服务瓶颈的时候，包括人员不足、重复解释、全天候在线、多模态沟通，以及跨多个渠道保持同一张“脸”的需求。[2][3][4]

到 0:32 之后，制作成本与部署方式决定它会不会变成基础设施

视频最后几秒真正重要的，是这件事能不能被规模化复制，而并非再展示一次漂亮的人脸。[1] 如果一个人形服务界面始终昂贵、缓慢、难交付，它就只能停留在示范项目。百度后续材料反复强调的也正是这件事。2025 年 6 月的曦灵文章写到，10 分钟就可以生成 3D 数字人，2D 分身制作被压到了小时级，脚本到专业视频只需 3 步，平台还可以通过 SaaS、组件化接口与多种云部署方式进入不同客户环境。[3] 2024 年 12 月那篇文章则从行业角度把这条趋势说得更清楚：大模型正在把数字人从重项目、高手工、长周期的特殊产品，压成一类可以被持续生产的标准化能力。[5]

也正因为这样，这支发布于 2023 年的短片到了 2026 年仍然值得重看。它真正谈的是“人形界面如何转化成业务表面”，头像之美只是其中一层表达。百度想表达的是：只要模型语言能力足够、声音可信度足够、生产栈足够便宜、部署边界足够灵活，数字人就能成为一种垂直服务前台，兼具代言、交互、流程承接与岗位执行的性质。这在 AI-China 语境里是一条很有代表性的路径，因为它没有停在纯聊天机器人竞争上，而是把 AI 放进机构已经迫切需要稳定在场的位置。[1][2][3][4][5]

cronfeed.work

百度那支数字人短片，真正卖出的是服务前台：一篇带注释观看，重看垂直知识、声音可信度与可部署的在场

到 0:00 到 0:10 左右，超写实只是入口，它还并非成交理由

到 0:10 到 0:22 左右，“通识能力 + 领域能力”这句话把头像变成了岗位

到 0:22 到 0:32 左右，电商与文化场景透露出真正的入市路径

到 0:32 之后，制作成本与部署方式决定它会不会变成基础设施

来源

Recommended In ai china