截至 2026-04-12 UTC,回看百度智能云在 2023 年 10 月 10 日发布的 40 秒短片 《Baidu Digital Humans Now Blend General And Domain-Specific Expertise》,最值得抓住的入口,不在“它做得像不像真人”这一层。[1] 脸部质感重要,唇形同步重要,整段视频的超写实表面当然也重要,但真正把整支片子转向另一层含义的,是标题里那句更具体的话:通识能力与领域能力被压进了同一个数字人表面。[1]
这比“我们的头像更逼真”要窄得多,也更有意思。把时间推到 2026 年 再看,百度自己后来放出的材料,反而把这个读法补得更完整。到了 2025 年 8 月 5 日 的 Baidu AI Day,百度智能云已经把第一批 AI 数字员工摆到台前,岗位直接落在营销经理、还款助理、汽车销售、招聘顾问等垂直职能上,并明确把它们定义成大模型、数字人技术与行业 Know-How 的结合体。[2] 2025 年 6 月 23 日那篇引用 IDC 2024 年中国 AI 数字人市场报告的官方文章,又把曦灵写成一套覆盖 2D 真人、3D 超写实数字人、声音克隆、98.5% 唇形驱动准确率、20+ 行业与公有云/私有云/混合云部署方式的全模态平台。[3] 这些材料和 2023 年那支短片并排放在一起,方向就很稳了:百度并非先追逐头像奇观,再考虑商业化;它更像是在提前搭建一块人形服务前台。
非娱乐场景更能把这件事说明白。百度智能云的 AI 手语主播案例页写得很清楚:第一版产品在 2021 年 11 月 24 日上线,后来进入冬奥新闻播报,也延伸到博物馆讲解这样的文化服务场景。[4] 另一篇发表于 2024 年 12 月 2 日的百度智能云文章则把技术经济账说得更直接,大模型把 3D 数字人的制作成本从百万元级压向万元级,把制作周期从按月计算压到按小时计算。[5] 顺着这些材料再回看视频,数字人的真正价值就不再落在“像一个人”,而是落在“能不能带着专业知识、交互能力与流程接口,站进一个真实岗位里”。这也是本文的核心判断:百度想让观众把数字人理解成一种可部署的前台界面,它看起来像人,发声像人,真正值钱的地方却在于它能够承接垂直业务中的解释、问答、引导与持续在场。[1][2][3][4][5]
配图说明:题图使用的是 Wikimedia Commons 上百度科技园二期的真实照片。这里需要真实园区照片,因为本文讨论的是一条公司级交付路径,而并非某个悬浮的虚拟形象。视频里的承诺只有在背后存在真实机构、真实技术栈与真实行业交付能力时,才会成立。[6]
到 0:00 到 0:10 左右,超写实只是入口,它还并非成交理由
视频开头先把注意力压在脸、声音和表面质感上。[1] 这个动作很必要。数字人如果一上来就显得僵硬、空洞或难以亲近,它根本进不了服务场景。百度 2025 年 6 月那篇市场份额文章,正好把这一层拆成产品能力:4D 扫描、1200 个维度的人脸还原、影视级效果、高保真声音克隆,以及高精度唇形驱动。[3]
但也正因为如此,视频真正重要的判断并不止于“做得像”。“像”只是通行证,用来降低用户对一个人形界面的第一层抗拒。更重要的,是这个看上去可信的“人”能不能被塞进一条企业流程里,替一家公司、一个机构、一个具体岗位持续说话、持续解释、持续接待。在 AI-China 的语境里,它被当成一种可用的服务界面在卖,艺术化展示只是进入这条路径的外壳。[1][3]
到 0:10 到 0:22 左右,“通识能力 + 领域能力”这句话把头像变成了岗位
这就是整支片子的转轴。[1] 一旦百度把数字人定义成大模型通识能力与垂直知识的结合体,它就不再只是一个会动的形象,而开始接近一种劳动单元。到了 2025 年 AI Day,百度把这条逻辑彻底说开:它没有停在抽象的万能助手层面,而是直接推出营销经理、还款助理、招聘顾问、课程顾问、汽车销售等岗位化的数字员工。[2]
这一步很关键,因为它回答了许多数字人演示一直没有正面回答的问题。企业为什么要买一个人形界面,而并非买一个聊天窗口、一段固定脚本或者一套普通客服系统?百度给出的答案是,数字人正好站在展示、对话与专业判断交汇的地方。它可以解释、应答、引导、升级话术,也可以把互动保持在一种用户原本就熟悉的“有人在服务我”的形态里。[1][2]
到 0:22 到 0:32 左右,电商与文化场景透露出真正的入市路径
这支短片没有把镜头钉死在单一 benchmark 上,而是很快扫过几个场景。[1] 这个剪法本身就很说明问题。百度在证明另一件事:同一套底层能力可以换皮进入电商、文化导览、客户服务与公共传播。AI 手语主播的案例尤其重要,因为它把数字人的用途从营销场景里拉了出来。它进入了新闻直播、冬奥报道、博物馆讲解与无障碍服务,这时数字人就不再像一件广告玩具,而更像一层可复用的交互基础设施。[4]
本文最核心的推断,也落在这里。百度已经把重心放在更可落地的层面:数字人在中国市场里更容易成立的时刻,往往出现在它准确接入现实服务瓶颈的时候,包括人员不足、重复解释、全天候在线、多模态沟通,以及跨多个渠道保持同一张“脸”的需求。[2][3][4]
到 0:32 之后,制作成本与部署方式决定它会不会变成基础设施
视频最后几秒真正重要的,是这件事能不能被规模化复制,而并非再展示一次漂亮的人脸。[1] 如果一个人形服务界面始终昂贵、缓慢、难交付,它就只能停留在示范项目。百度后续材料反复强调的也正是这件事。2025 年 6 月的曦灵文章写到,10 分钟就可以生成 3D 数字人,2D 分身制作被压到了小时级,脚本到专业视频只需 3 步,平台还可以通过 SaaS、组件化接口与多种云部署方式进入不同客户环境。[3] 2024 年 12 月那篇文章则从行业角度把这条趋势说得更清楚:大模型正在把数字人从重项目、高手工、长周期的特殊产品,压成一类可以被持续生产的标准化能力。[5]
也正因为这样,这支发布于 2023 年的短片到了 2026 年仍然值得重看。它真正谈的是“人形界面如何转化成业务表面”,头像之美只是其中一层表达。百度想表达的是:只要模型语言能力足够、声音可信度足够、生产栈足够便宜、部署边界足够灵活,数字人就能成为一种垂直服务前台,兼具代言、交互、流程承接与岗位执行的性质。这在 AI-China 语境里是一条很有代表性的路径,因为它没有停在纯聊天机器人竞争上,而是把 AI 放进机构已经迫切需要稳定在场的位置。[1][2][3][4][5]
来源
- Baidu Inc.,《Baidu Digital Humans Now Blend General And Domain-Specific Expertise|Baidu AI Cloud》,官方 YouTube 视频,发布于 2023 年 10 月 10 日。
- 百度智能云,《百度智能云AI“打工人”天团上线,7款数字员工“落地即上岗”》(2025 年 8 月 6 日;AI Day 上线 7 类岗位化数字员工,强调大模型、数字人技术与行业 Know-How 的结合)。
- 百度智能云,《市场份额第一!百度智能云曦灵实力领跑数字人行业》(2025 年 6 月 23 日;IDC 市场份额文章,涵盖 2D/3D 生成、98.5% 唇形驱动准确率、20+ 行业与多种部署方式)。
- 百度智能云,《AI手语主播》(官方案例页;覆盖 2021 年首发、冬奥播报、无障碍服务与博物馆讲解场景)。
- 百度智能云,《大模型重塑数字人产业新生态》(2024 年 12 月 2 日;讨论大模型如何压缩数字人制作成本、缩短周期并提升交互能力)。
- Wikimedia Commons,"File:Baidu Technology Park at ZPark Phase II (20220502113650).jpg"(本文配图来源页)。