截至 2026-06-22T02:34:20Z UTC,这篇新的 prompt 泄露论文里,最值得关注的 AI-China 信号,并非聊天机器人会被诱导说出隐藏指令。这个问题已经存在多年。更有用的信号在于,agent 平台已经把 system prompt 变成运行边界:里面可以包含角色设计、工作流路由、工具调用规则、API 处理假设、检索策略和安全指令,并由此决定应用被允许做什么。[1]
论文研究了 1,200 个公开可访问的 LLM 应用,覆盖 six 个商业平台,并报告说,在现实攻击查询下,超过 80% 的应用泄露了 system prompt。[1] 这些平台包括与中国相关的 agent 制作平台,例如 Coze、通义 agent 平台、百度和腾讯,也包括非中国平台。[1] 这个具体泄露率应被理解为样本应用和测试攻击下的测量结果,不能扩展成所有当前部署的永久属性。更持久的一点更清楚:一旦 agent 平台鼓励非专业用户把 prompt、插件、知识库、工作流和发布渠道打包在一起,prompt 保密就进入产品治理范畴,而不再只是小众红队议题。
这一点重要,是因为中国的 agent 市场已经超出模型竞赛。Coze 的公开文档把 prompt 视为可配置的应用资源,可以面向业务需求创建,也可以模板化、引用,或借助 AI 生成。[2] 阿里云 Model Studio 把 prompt 与知识库、会话日志、技能、插件、MCP 服务、Model Studio agents 和第三方 agents 一起暴露出来。[3] 百度 AgentBuilder 描述的是一个平台,开发者可以按行业和应用场景选择制作方式;腾讯元器则展示了从公众号助手到客服机器人、IP 伙伴、文档工具和游戏互动的公开 agent 类别。[4][5] 在这样的世界里,prompt 不只是文本。它是一份面向已发布应用的紧凑控制文件。
秘密已经不只是一段 prompt
实际风险始于心智模型的错位。许多团队谈论 prompt 泄露时,仍然把最坏结果想象成尴尬:用户看到隐藏的人设文本,然后嘲笑措辞。这个范围太窄。在 agent 平台里,隐藏指令会暴露系统如何决定何时调用工具、何时拒答、检索中期待哪些数据、如何总结私有文档、能够发布到哪些渠道,以及开发者在哪里绕开已知失效模式。[1][3]
因此,这篇新论文关于“attention drift”的解释很有用,即便读者并不准备实现作者提出的防御方法。作者认为,附加在 prompt 后面的防御指令会失效,因为面对对抗性查询时,模型注意力会逐步远离约束,使得“不要泄露这段 prompt”这类简单语言成为薄弱保护层。[1] 无论平台是否采用论文中的 AREA 方法,对 agent 制作者来说,含义已经很明确:prompt 保密不能依赖同一上下文里的一句自指提醒,而攻击者正试图抽取的也是这个上下文。
中国相关角度在于规模和包装。Coze、Model Studio、AgentBuilder 和元器都让更多创作者、品牌、商家、教师、客服团队、媒体账号和开发者更容易发布 agent,即使他们没有从零开始搭建完整安全架构。[2][3][4][5] 这是采用速度的收益,也是控制问题的来源。低代码制作工具可以更快生成有用 agent,速度高于安全团队逐条人工审查所有隐藏指令、插件权限、知识来源和发布目标的能力。
插件密集型 agent 扩大影响半径
当泄露文本解释了工具边界,prompt 泄露就更严重。阿里云 Model Studio 的应用配置文档把插件、MCP 服务、Model Studio agents 和第三方 agents 直接放在应用表面。[3] 它关于插件和 MCP 的语言并不特殊,而是反映了更宽的 agent 方向。模型被期待同外部能力协作,而不只是返回文本。
这改变了安全问题。如果泄露的 prompt 只暴露语气指南,损害有限。如果它暴露合同审查工作流的结构、触发检索路线的关键词、指示 agent 何时调用支付、搜索、物流、客服或文档插件的规则,或内部变量名称,攻击者就得到了一张应用地图。论文还提到泄露敏感信息的情况,包括部分观察部署中的第三方 API keys。[1] 运行良好的平台应阻止秘密被写进 prompt,但这个测量结果提醒我们,真实应用经常把便利和风险混在一起。
同样的问题也出现在公开 agent 分发中。腾讯元器首页展示了与公众号、法律帮助、政务服务、税务协助、快递查询、教育、IP 人设和 AI-PPT 创建相关的 agents。[5] 百度 AgentBuilder 则围绕开发者按行业和场景选择方式来定位自身。[4] 这些例子有用,因为它们显示了市场重心:agent 平台正在进入日常服务渠道,在这些渠道里,prompt 泄露暴露的是业务逻辑,而不只是隐藏聊天文本。
更好的平台边界应当是什么样
最低限度的修复,不是“写一段更好的 prompt”。更好的措辞可以减少随手诱导出的泄露,但控制边界必须移到 prompt 外面。三个设计选择很重要。
第一,平台应让秘密离开 prompt 文本。API keys、账号 token、私有端点名称和敏感客户数据,应放在托管凭证库、有作用域的工具配置或服务器端策略层中。prompt 可以描述意图,但不应携带执行钥匙。论文发现让这条原本普通的规则重新变得紧迫,因为在测量样本中,prompt 抽取并不少见。[1]
第二,平台应分离人设、政策和工具授权。创建者写下的“你是一个有帮助的税务助手”属于一个通道;数据留存、发布权限和敏感类别处理等政策属于另一个通道;工具授权应由平台强制执行,即便模型受到操纵也一样。Coze 和 Model Studio 都暴露了对创建者友好的 prompt 与工具表面,这正是执行层需要比创建者写下的隐藏文本更持久的原因。[2][3]
第三,平台需要把泄露测试纳入发布流程。AgentBuilder 式和元器式分发会把 agents 变成公开或半公开产品。[4][5] 在 agent 上线前,平台应测试常见抽取 prompt 是否会泄露 system 文本、工具名称、类似凭证的字符串、检索指令或工作流逻辑。当 prompt、插件、知识库、MCP 服务或发布渠道发生变化时,测试还应再次运行。对于持续编辑的应用,一次上线审查覆盖不了后续变化。
为什么这是一个 AI-China 现场信号
中国 AI 应用叙事中最强的部分常常是速度:模型发布快,应用包装快,接入超级应用、云、办公、教育、媒体和服务渠道也快。prompt 泄露把这种速度的另一面照了出来。分发越容易,治理越需要自动化。
这并不说明中国 agent 平台独有脆弱性。论文测量跨越多个平台,prompt 泄露也是一般性的 LLM 应用问题。[1] AI-China 层面的意义在于,中国平台正在积极把 agents 做成消费者、创作者、企业和公众号表面。[2][3][4][5] 这一路线越成功,默认把隐藏 prompt 当作私有内容的做法越难成立。
因此,最合适的读法并非恐慌,而是栈的更新。模型访问、prompt 制作器、知识库、插件、MCP 服务、工作流、发布渠道和设备集成,正在合成一个产品表面。秘密边界也必须在同一层级上工程化。如果 prompt 是唯一的墙,这堵墙已经在房间内部。
来源
- Yuxuan Chen 等,“Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications,” arXiv:2606.18673v1(2026 年 6 月关于 1,200 个应用的平台集合、泄露发现、attention-drift 分析和 AREA 防御的测量研究)。
- Coze,“Prompt”文档(面向 agent 应用的 prompt 创建、模板、prompt 资源和 AI 辅助 prompt 生成)。
- 阿里云 Model Studio,“Application configuration”文档(自定义 prompt、知识库、会话日志、技能、插件、MCP 服务、Model Studio agents 和第三方 agents)。
- 百度,文心 AgentBuilder“平台介绍”(关于开发者按行业、领域和应用场景制作 agents 的官方 AgentBuilder 定位)。
- 腾讯元器,官方网站首页(公众号 agents、客服助手、IP 伙伴、文档工具和其他已发布 agent 类别的公开示例)。
- Wikimedia Commons,“WAIC 2025 - Alibaba Quark Glasses 01.jpg”(Xuthoria 拍摄的阿里巴巴夸克智能眼镜在 WAIC 2025 展出的真实照片;本文图片来源)。