截至 2026-04-16 UTC,观看百度这支 91 秒短片 《DuMate | Your Desktop AI Agent》,最值得避开的读法,是把它看成又一个泛泛承诺“AI 助手将住进你的电脑并替你处理一切”的桌面宣传片。[1] 把视频和百度配套文档并在一起看,会出现一条更窄也更扎实的主张。DuMate 被包装成一块受控的桌面智能体表面:它可以看见屏幕、操作软件、处理文件、串联业务系统,但这些动作被放进本地安全沙箱、授权访问和预置技能的约束里,而并非交给一个完全开放、随意发挥的聊天壳子。[2][3][4]
这一层分寸,对 AI-China 文章尤其重要,因为桌面智能体视频最容易制造“它好像什么都能做”的错觉。只要镜头里有鼠标移动、文件打开、页面跳转,观众就很容易把它自动理解成自主性。百度自己的文档恰恰在给这种错觉加边界。产品介绍页写得很清楚,DuMate 面向个人和团队,以自然语言指令作为主入口,目标是把办公任务从一句话推进到规划、技能调度和全流程执行。[2] 同一页又反复强调另一半:产品运行在本地安全沙箱里,没有明确授权不会访问设备资源,工作的着力点也并非抽象对话,而是文件、浏览器和业务系统这些真实办公表面。[2]
发布时间线把这个判断又往前推了一步。百度千帆的更新动态写到,2026 年 3 月 20 日 DuMate MVP 上线,支持 MacOS 与 Windows,支持对话中断与恢复、多任务并行执行、预装安全沙箱以及高风险操作二次确认。[4] DuMate 自己的更新日志随后把产品形状补得更细:2026 年 4 月 1 日开启正式服务,2026 年 4 月 2 日上线技能广场与每日总结,2026 年 4 月 12 日继续补充原生技能并强化稳定性与安全性。[3] 这些材料放在一起,视频的含义就变得更扎实。它并非在推销一个无所不能的桌面精灵,而是在推销一条被持续加固的桌面执行通道。
百度给投资人的表述,又把这条通道放回更大的公司框架里。百度 2025 年第三季度业绩材料写到,Qianfan 已经升级为更agent-centric的平台,同时把 GenFlow 描述成围绕多智能体协作和自然语言交互展开的通用智能体平台。[5] 顺着 [2] 到 [5] 这些材料往下读,我的判断是,DuMate 真正值得看的地方,在于它把百度原本更多停留在云端的 agent 栈压到了用户桌面边缘。百度要做的,不只是开放模型和工具,而是让桌面本身变成语言、文件、技能与软件动作相互交接的一段受控表面。[2][3][4][5]
配图说明:题图使用 Wikimedia Commons 上的百度科技园实景照片。这里适合用真实园区图像,因为视频真正讲的并非一个抽象助手人格,而是百度把桌面智能体包装成系统产品的尝试:底下有基础设施、有技能层,也有企业软件交接的管理逻辑。[6]
到 0:00 到 0:12 左右,视频先把镜头放在桌面上,因为百度想让智能体继承真实工作表面
开头镜头停留在 Windows 桌面和 DuMate 窗口里,而并非先给出一段夸张的模型动画。[1] 英文字幕说它集成了百度智能云的综合技能,可以直接和屏幕、文件、浏览器交互。[1] 这一处理很关键,因为它先交代了智能体要落在哪里。这里并非一个远离工作面的问答页,也并非一个只会说话的助手框。它被安排在机器真正发生工作的那一层表面上。
这个镜头语言和产品介绍页几乎是一一对应的。百度写到,DuMate 可以看见屏幕、操作软件、处理文件、串联业务系统,这套说法比“和助手聊天”要更具执行意味。[2] 放在这个层面上,桌面并非包装背景,而是产品边界本身。用户的文件、正在打开的窗口、已经授权的软件,都会成为这条智能体执行路径的一部分。
到 0:12 到 0:24 左右,提示框暴露出真正的交接点:先给目标,再把目标送进文件与流程执行
接下来最重要的一段,落在提示框和一个整理桌面表格的任务示例上,随后字幕又补了一句:文档、数据分析和邮件都可以由这一个桌面智能体处理。[1] 看到这里,视频的推销逻辑开始收紧。百度并非让用户自己把点击步骤逐条写完,而是让用户先把目标说出来,再由 DuMate 选择路径。
这套主张之所以能成立,前提正是百度先把路径收窄了。介绍页明确写到,用户给出目标和工作范围,DuMate 负责规划任务、调度内置技能并完成全流程执行。[2] 千帆更新日志又补上一层必要约束:它支持并行执行,也支持中断恢复,并且高风险动作会要求再次确认。[4] 顺着这些材料往下看,我的判断是,百度真正想让观众接受的,并非“语言无所不能”,而是目标到工作流的受控交接。一句话能够落到文件、应用和办公任务里,价值就出来了;但这条落地路线必须是可管理的。[1][2][4]
到 0:24 到 0:54 左右,突然出现的游戏画面把产品重心说得更明白:真正居中的并非模型,而是技能编排
大约四分之一处开始,视频突然从办公界面切进横版游戏。DuMate 的小人形象经过写着 enterprise-grade skills 的牌子,又路过 Miaoda App Builder 和其他技能入口,再一路吃到加成道具。[1] 第一遍看,这像是一段纯广告化的活泼包装;第二遍看,它反而把产品讲得更清楚。百度在暗示,桌面智能体之所以有价值,并非因为它单独拥有一个万能模型,而是因为它挂接着一整套可调用能力。
这时配套文档的作用就出来了。DuMate 更新日志写到,产品在 2026 年 4 月 2 日上线技能广场,2026 年 4 月 12 日又补充原生技能。[3] 百度 2025 年第三季度业绩材料则说,Qianfan 已经朝 agent-centric 方向升级,GenFlow 被定义成一个多智能体平台。[5] 把这些材料和视频并在一起看,游戏隐喻就变得可读了。重点并不在于卡通角色,而在于 DuMate 被放成一个编排外壳:它可以继续接技能,可以通向百度相邻的应用构建入口,也可以通过组合而并非单点模型能力变得更强。[1][3][5]
到 0:54 到结尾,垂直场景牌子和收束语把边界讲得更窄,也更真实
视频最后三分之一开始转向更具体的业务场景。一块牌子写着 intelligent marketing assistant,另一块指向跨行业的视觉分析,最后画面收束到“通过百度智能云释放 AI 生产力”的口号。[1] 这一段是全片最不含蓄的部分,但也最能暴露产品边界。百度真正展示的,并非一个桌面上的通用心智,而是一个能够把任务继续路由到更窄业务功能里的桌面壳层。
也正因为这样,本地沙箱这条线才并非附带说明,而是产品成立的中轴。若没有这层约束,整支片子会很像失控自动化的想象戏。加上本地隔离、授权访问和高风险确认之后,百度才能讲出另一种更克制的故事:智能体确实要跨文件和软件做事,但这些动作被限制在本地隔离环境内,也被限制在用户许可和风险边界之内。[2][4] 桌面在这里并非放大自主性的借口,而是把治理逻辑放进执行表面的场所。
这也是这支短片现在值得嵌入的原因。它最有力量的主张,并非“百度已经把桌面彻底解决了”,而是另一条更耐看的命题:2026 年的中国 AI 产品,正在从聊天入口转向受控执行表面。DuMate 之所以重要,不在于它把多少能力堆进了一个窗口,而在于它把自然语言任务接入、技能路由、本地沙箱、业务软件交接和垂直功能目录压进了一块可见界面里。[1][2][3][4][5] 画面很轻快,底下的产品策略却相当克制。百度真正想做的,是让桌面智能体看起来不再像投机性的副驾驶,而更像一条被治理过、可持续扩展的日常工作通道。
来源
- Baidu Inc., "DuMate | Your Desktop AI Agent," official YouTube video, published April 8, 2026.
- 百度智能云文档中心,《了解DuMate》(产品定义、屏幕/软件/文件/业务系统能力、本地安全沙箱与主要办公场景)。
- 百度智能云文档中心,《更新动态》 for DuMate(2026 年 3 月至 4 月版本更新,包括正式服务、技能广场与原生技能扩展)。
- 百度智能云文档中心,《更新动态》 for 百度千帆·大模型服务及Agent开发平台(2026 年 3 月 20 日关于 DuMate MVP 的上线说明,包括 MacOS/Windows、并行任务、安全沙箱与高风险操作二次确认)。
- Baidu, "Baidu Announces Third Quarter 2025 Results"(Qianfan 升级为更 agent-centric 的平台,GenFlow 被描述为通用智能体平台)。
- Wikimedia Commons, "File:Baidu Technology Park at ZPark Phase II (20220502113650).jpg"(本文题图来源页)。