截至 2026-06-22T02:34:20Z UTC,这篇新的 prompt 泄露论文里,最值得关注的 AI-China 信号,并非聊天机器人会被诱导说出隐藏指令。这个问题已经存在多年。更有用的信号在于,agent 平台已经把 system prompt 变成运行边界:里面可以包含角色设计、工作流路由、工具调用规则、API 处理假设、检索策略和安全指令,并由此决定应用被允许做什么。[1]

论文研究了 1,200 个公开可访问的 LLM 应用,覆盖 six 个商业平台,并报告说,在现实攻击查询下,超过 80% 的应用泄露了 system prompt。[1] 这些平台包括与中国相关的 agent 制作平台,例如 Coze、通义 agent 平台、百度和腾讯,也包括非中国平台。[1] 这个具体泄露率应被理解为样本应用和测试攻击下的测量结果,不能扩展成所有当前部署的永久属性。更持久的一点更清楚:一旦 agent 平台鼓励非专业用户把 prompt、插件、知识库、工作流和发布渠道打包在一起,prompt 保密就进入产品治理范畴,而不再只是小众红队议题。

这一点重要,是因为中国的 agent 市场已经超出模型竞赛。Coze 的公开文档把 prompt 视为可配置的应用资源,可以面向业务需求创建,也可以模板化、引用,或借助 AI 生成。[2] 阿里云 Model Studio 把 prompt 与知识库、会话日志、技能、插件、MCP 服务、Model Studio agents 和第三方 agents 一起暴露出来。[3] 百度 AgentBuilder 描述的是一个平台,开发者可以按行业和应用场景选择制作方式;腾讯元器则展示了从公众号助手到客服机器人、IP 伙伴、文档工具和游戏互动的公开 agent 类别。[4][5] 在这样的世界里,prompt 不只是文本。它是一份面向已发布应用的紧凑控制文件。

秘密已经不只是一段 prompt

实际风险始于心智模型的错位。许多团队谈论 prompt 泄露时,仍然把最坏结果想象成尴尬:用户看到隐藏的人设文本,然后嘲笑措辞。这个范围太窄。在 agent 平台里,隐藏指令会暴露系统如何决定何时调用工具、何时拒答、检索中期待哪些数据、如何总结私有文档、能够发布到哪些渠道,以及开发者在哪里绕开已知失效模式。[1][3]

因此,这篇新论文关于“attention drift”的解释很有用,即便读者并不准备实现作者提出的防御方法。作者认为,附加在 prompt 后面的防御指令会失效,因为面对对抗性查询时,模型注意力会逐步远离约束,使得“不要泄露这段 prompt”这类简单语言成为薄弱保护层。[1] 无论平台是否采用论文中的 AREA 方法,对 agent 制作者来说,含义已经很明确:prompt 保密不能依赖同一上下文里的一句自指提醒,而攻击者正试图抽取的也是这个上下文。

中国相关角度在于规模和包装。Coze、Model Studio、AgentBuilder 和元器都让更多创作者、品牌、商家、教师、客服团队、媒体账号和开发者更容易发布 agent,即使他们没有从零开始搭建完整安全架构。[2][3][4][5] 这是采用速度的收益,也是控制问题的来源。低代码制作工具可以更快生成有用 agent,速度高于安全团队逐条人工审查所有隐藏指令、插件权限、知识来源和发布目标的能力。

插件密集型 agent 扩大影响半径

当泄露文本解释了工具边界,prompt 泄露就更严重。阿里云 Model Studio 的应用配置文档把插件、MCP 服务、Model Studio agents 和第三方 agents 直接放在应用表面。[3] 它关于插件和 MCP 的语言并不特殊,而是反映了更宽的 agent 方向。模型被期待同外部能力协作,而不只是返回文本。

这改变了安全问题。如果泄露的 prompt 只暴露语气指南,损害有限。如果它暴露合同审查工作流的结构、触发检索路线的关键词、指示 agent 何时调用支付、搜索、物流、客服或文档插件的规则,或内部变量名称,攻击者就得到了一张应用地图。论文还提到泄露敏感信息的情况,包括部分观察部署中的第三方 API keys。[1] 运行良好的平台应阻止秘密被写进 prompt,但这个测量结果提醒我们,真实应用经常把便利和风险混在一起。

同样的问题也出现在公开 agent 分发中。腾讯元器首页展示了与公众号、法律帮助、政务服务、税务协助、快递查询、教育、IP 人设和 AI-PPT 创建相关的 agents。[5] 百度 AgentBuilder 则围绕开发者按行业和场景选择方式来定位自身。[4] 这些例子有用,因为它们显示了市场重心:agent 平台正在进入日常服务渠道,在这些渠道里,prompt 泄露暴露的是业务逻辑,而不只是隐藏聊天文本。

更好的平台边界应当是什么样

最低限度的修复,不是“写一段更好的 prompt”。更好的措辞可以减少随手诱导出的泄露,但控制边界必须移到 prompt 外面。三个设计选择很重要。

第一,平台应让秘密离开 prompt 文本。API keys、账号 token、私有端点名称和敏感客户数据,应放在托管凭证库、有作用域的工具配置或服务器端策略层中。prompt 可以描述意图,但不应携带执行钥匙。论文发现让这条原本普通的规则重新变得紧迫,因为在测量样本中,prompt 抽取并不少见。[1]

第二,平台应分离人设、政策和工具授权。创建者写下的“你是一个有帮助的税务助手”属于一个通道;数据留存、发布权限和敏感类别处理等政策属于另一个通道;工具授权应由平台强制执行,即便模型受到操纵也一样。Coze 和 Model Studio 都暴露了对创建者友好的 prompt 与工具表面,这正是执行层需要比创建者写下的隐藏文本更持久的原因。[2][3]

第三,平台需要把泄露测试纳入发布流程。AgentBuilder 式和元器式分发会把 agents 变成公开或半公开产品。[4][5] 在 agent 上线前,平台应测试常见抽取 prompt 是否会泄露 system 文本、工具名称、类似凭证的字符串、检索指令或工作流逻辑。当 prompt、插件、知识库、MCP 服务或发布渠道发生变化时,测试还应再次运行。对于持续编辑的应用,一次上线审查覆盖不了后续变化。

为什么这是一个 AI-China 现场信号

中国 AI 应用叙事中最强的部分常常是速度:模型发布快,应用包装快,接入超级应用、云、办公、教育、媒体和服务渠道也快。prompt 泄露把这种速度的另一面照了出来。分发越容易,治理越需要自动化。

这并不说明中国 agent 平台独有脆弱性。论文测量跨越多个平台,prompt 泄露也是一般性的 LLM 应用问题。[1] AI-China 层面的意义在于,中国平台正在积极把 agents 做成消费者、创作者、企业和公众号表面。[2][3][4][5] 这一路线越成功,默认把隐藏 prompt 当作私有内容的做法越难成立。

因此,最合适的读法并非恐慌,而是栈的更新。模型访问、prompt 制作器、知识库、插件、MCP 服务、工作流、发布渠道和设备集成,正在合成一个产品表面。秘密边界也必须在同一层级上工程化。如果 prompt 是唯一的墙,这堵墙已经在房间内部。

来源

  1. Yuxuan Chen 等,“Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications,” arXiv:2606.18673v1(2026 年 6 月关于 1,200 个应用的平台集合、泄露发现、attention-drift 分析和 AREA 防御的测量研究)。
  2. Coze,“Prompt”文档(面向 agent 应用的 prompt 创建、模板、prompt 资源和 AI 辅助 prompt 生成)。
  3. 阿里云 Model Studio,“Application configuration”文档(自定义 prompt、知识库、会话日志、技能、插件、MCP 服务、Model Studio agents 和第三方 agents)。
  4. 百度,文心 AgentBuilder“平台介绍”(关于开发者按行业、领域和应用场景制作 agents 的官方 AgentBuilder 定位)。
  5. 腾讯元器,官方网站首页(公众号 agents、客服助手、IP 伙伴、文档工具和其他已发布 agent 类别的公开示例)。
  6. Wikimedia Commons,“WAIC 2025 - Alibaba Quark Glasses 01.jpg”(Xuthoria 拍摄的阿里巴巴夸克智能眼镜在 WAIC 2025 展出的真实照片;本文图片来源)。