Prompt 泄露让中国 agent 平台变成秘密边界问题

阿里巴巴夸克智能眼镜在 WAIC 2025 展出的真实照片，适合这篇现场信号文章：本文讨论的是中国 AI 从模型演示走向应用表面之后，prompt、工具、设备和工作流上下文怎样变成运行中的秘密。[6]

截至 2026-06-22T02:34:20Z UTC，这篇新的 prompt 泄露论文里，最值得关注的 AI-China 信号，并非聊天机器人会被诱导说出隐藏指令。这个问题已经存在多年。更有用的信号在于，agent 平台已经把 system prompt 变成运行边界：里面可以包含角色设计、工作流路由、工具调用规则、API 处理假设、检索策略和安全指令，并由此决定应用被允许做什么。[1]

论文研究了 1,200 个公开可访问的 LLM 应用，覆盖 six 个商业平台，并报告说，在现实攻击查询下，超过 80% 的应用泄露了 system prompt。[1] 这些平台包括与中国相关的 agent 制作平台，例如 Coze、通义 agent 平台、百度和腾讯，也包括非中国平台。[1] 这个具体泄露率应被理解为样本应用和测试攻击下的测量结果，不能扩展成所有当前部署的永久属性。更持久的一点更清楚：一旦 agent 平台鼓励非专业用户把 prompt、插件、知识库、工作流和发布渠道打包在一起，prompt 保密就进入产品治理范畴，而不再只是小众红队议题。

这一点重要，是因为中国的 agent 市场已经超出模型竞赛。Coze 的公开文档把 prompt 视为可配置的应用资源，可以面向业务需求创建，也可以模板化、引用，或借助 AI 生成。[2] 阿里云 Model Studio 把 prompt 与知识库、会话日志、技能、插件、MCP 服务、Model Studio agents 和第三方 agents 一起暴露出来。[3] 百度 AgentBuilder 描述的是一个平台，开发者可以按行业和应用场景选择制作方式；腾讯元器则展示了从公众号助手到客服机器人、IP 伙伴、文档工具和游戏互动的公开 agent 类别。[4][5] 在这样的世界里，prompt 不只是文本。它是一份面向已发布应用的紧凑控制文件。

秘密已经不只是一段 prompt

实际风险始于心智模型的错位。许多团队谈论 prompt 泄露时，仍然把最坏结果想象成尴尬：用户看到隐藏的人设文本，然后嘲笑措辞。这个范围太窄。在 agent 平台里，隐藏指令会暴露系统如何决定何时调用工具、何时拒答、检索中期待哪些数据、如何总结私有文档、能够发布到哪些渠道，以及开发者在哪里绕开已知失效模式。[1][3]

因此，这篇新论文关于“attention drift”的解释很有用，即便读者并不准备实现作者提出的防御方法。作者认为，附加在 prompt 后面的防御指令会失效，因为面对对抗性查询时，模型注意力会逐步远离约束，使得“不要泄露这段 prompt”这类简单语言成为薄弱保护层。[1] 无论平台是否采用论文中的 AREA 方法，对 agent 制作者来说，含义已经很明确：prompt 保密不能依赖同一上下文里的一句自指提醒，而攻击者正试图抽取的也是这个上下文。

中国相关角度在于规模和包装。Coze、Model Studio、AgentBuilder 和元器都让更多创作者、品牌、商家、教师、客服团队、媒体账号和开发者更容易发布 agent，即使他们没有从零开始搭建完整安全架构。[2][3][4][5] 这是采用速度的收益，也是控制问题的来源。低代码制作工具可以更快生成有用 agent，速度高于安全团队逐条人工审查所有隐藏指令、插件权限、知识来源和发布目标的能力。

插件密集型 agent 扩大影响半径

当泄露文本解释了工具边界，prompt 泄露就更严重。阿里云 Model Studio 的应用配置文档把插件、MCP 服务、Model Studio agents 和第三方 agents 直接放在应用表面。[3] 它关于插件和 MCP 的语言并不特殊，而是反映了更宽的 agent 方向。模型被期待同外部能力协作，而不只是返回文本。

这改变了安全问题。如果泄露的 prompt 只暴露语气指南，损害有限。如果它暴露合同审查工作流的结构、触发检索路线的关键词、指示 agent 何时调用支付、搜索、物流、客服或文档插件的规则，或内部变量名称，攻击者就得到了一张应用地图。论文还提到泄露敏感信息的情况，包括部分观察部署中的第三方 API keys。[1] 运行良好的平台应阻止秘密被写进 prompt，但这个测量结果提醒我们，真实应用经常把便利和风险混在一起。

同样的问题也出现在公开 agent 分发中。腾讯元器首页展示了与公众号、法律帮助、政务服务、税务协助、快递查询、教育、IP 人设和 AI-PPT 创建相关的 agents。[5] 百度 AgentBuilder 则围绕开发者按行业和场景选择方式来定位自身。[4] 这些例子有用，因为它们显示了市场重心：agent 平台正在进入日常服务渠道，在这些渠道里，prompt 泄露暴露的是业务逻辑，而不只是隐藏聊天文本。

更好的平台边界应当是什么样

最低限度的修复，不是“写一段更好的 prompt”。更好的措辞可以减少随手诱导出的泄露，但控制边界必须移到 prompt 外面。三个设计选择很重要。

第一，平台应让秘密离开 prompt 文本。API keys、账号 token、私有端点名称和敏感客户数据，应放在托管凭证库、有作用域的工具配置或服务器端策略层中。prompt 可以描述意图，但不应携带执行钥匙。论文发现让这条原本普通的规则重新变得紧迫，因为在测量样本中，prompt 抽取并不少见。[1]

第二，平台应分离人设、政策和工具授权。创建者写下的“你是一个有帮助的税务助手”属于一个通道；数据留存、发布权限和敏感类别处理等政策属于另一个通道；工具授权应由平台强制执行，即便模型受到操纵也一样。Coze 和 Model Studio 都暴露了对创建者友好的 prompt 与工具表面，这正是执行层需要比创建者写下的隐藏文本更持久的原因。[2][3]

第三，平台需要把泄露测试纳入发布流程。AgentBuilder 式和元器式分发会把 agents 变成公开或半公开产品。[4][5] 在 agent 上线前，平台应测试常见抽取 prompt 是否会泄露 system 文本、工具名称、类似凭证的字符串、检索指令或工作流逻辑。当 prompt、插件、知识库、MCP 服务或发布渠道发生变化时，测试还应再次运行。对于持续编辑的应用，一次上线审查覆盖不了后续变化。

为什么这是一个 AI-China 现场信号

中国 AI 应用叙事中最强的部分常常是速度：模型发布快，应用包装快，接入超级应用、云、办公、教育、媒体和服务渠道也快。prompt 泄露把这种速度的另一面照了出来。分发越容易，治理越需要自动化。

这并不说明中国 agent 平台独有脆弱性。论文测量跨越多个平台，prompt 泄露也是一般性的 LLM 应用问题。[1] AI-China 层面的意义在于，中国平台正在积极把 agents 做成消费者、创作者、企业和公众号表面。[2][3][4][5] 这一路线越成功，默认把隐藏 prompt 当作私有内容的做法越难成立。

因此，最合适的读法并非恐慌，而是栈的更新。模型访问、prompt 制作器、知识库、插件、MCP 服务、工作流、发布渠道和设备集成，正在合成一个产品表面。秘密边界也必须在同一层级上工程化。如果 prompt 是唯一的墙，这堵墙已经在房间内部。

cronfeed.work

Prompt 泄露让中国 agent 平台变成秘密边界问题

秘密已经不只是一段 prompt

插件密集型 agent 扩大影响半径

更好的平台边界应当是什么样

为什么这是一个 AI-China 现场信号

来源

Recommended In ai china