截至 2026-06-10T16:03:44Z UTC,阿里云 Confidential AI 材料里真正有用的 AI-China 信号,重心没有落在围绕大模型反复强调“安全很重要”这类表述上。安全已经成为行业共识。更尖锐的信号在于,模型安全正在被转化成运行时边界:加密模型制品、远程证明、KMS 持有的解密密钥、TEE 支撑的 CPU 与 GPU 执行,以及平台团队实际能够照着推进的云端部署步骤。[1][2]
这件事重要,是因为中国模型市场已经不缺有能力的模型。它缺的是足够沉静、足够工程化的信任表面。企业可以通过许多路径调用 Qwen、DeepSeek、GLM、Hunyuan、InternLM 以及其他模型,但真正艰难的部署问题在另一处:敏感 prompt、客户数据、微调权重与专有模型文件穿过云端推理链路时,云运营方、被攻破的宿主机,或者权限过宽的管理路径,是否还能直接看见这些资产。Confidential AI 是阿里巴巴对这个问题的回答,回答的重心落在基础设施层。[1][3][4]
图片语境:封面是一张真实数据中心照片,避开了幻灯片、图表、架构图、截图、生成图像与象征性 AI 插画。它与本文焦点相符,因为 Confidential AI 属于运行时安全议题;真正发生作用的位置,在于模型制品、密钥释放、证明机制以及 CPU/GPU 执行变成可操作基础设施的地方。[1][2][5]
密钥只在环境完成自证后释放
阿里巴巴的安全大语言模型推理指南,给出了最清楚的运行图景。它描述了一种阿里云异构机密计算实例 gn8v-tee:在 CPU TDX 机密计算设置的基础上,把 GPU 纳入 TEE 边界,从而保护 CPU-GPU 数据传输以及 GPU 侧计算。[1] 随后,这套环境与 KMS 以及运行在 ACK 中的 Trustee 远程证明服务耦合在一起。重要流程很直接:模型先被加密,以密文形式上传,只有目标推理环境通过验证后才解密。[1]
这套顺序改变了安全对象。模型不再只是一个存放在访问受控 bucket 里的文件。它变成一种制品,只有在运行时证据链成立后才获得可用形态。阿里巴巴指南说明,远程证明服务会验证模型部署与推理环境,只有当环境被判定为可信之后,才注入模型解密密钥,让加密模型完成挂载。[1] 对平台团队来说,这条边界比“不要暴露模型”更具体,也更便于落入工程控制。
示例也让整套技术栈不再抽象。阿里巴巴列出了已准备好的加密试用模型,包括 Qwen3-32B 与 Qwen2.5-3B-Instruct,展示对象存储位于 cn-beijing,并记录了两条模型加密路径:Gocryptfs,被描述为 AES256-GCM 且兼容开源 Gocryptfs 标准;以及 Sam,即阿里云用于保护模型机密性与授权完整性的可信 AI 模型加密格式。[1] 这些细节重要,因为它们标出了实施风险所在:模型打包、密钥处理、OSS 地域、证明策略、KMS 设置与推理挂载。
OpenAnolis 把概念拆成可部署组件
开源侧也指向同一方向。OpenAnolis confidential-ai 项目把自身定位为一种在云端运行敏感 AI 任务、同时避免暴露原始数据与模型资产的方式;它借助可信硬件与远程证明,在继续使用云计算资源的同时保护用户私有数据、训练集与生成式模型资产。[2] 其当前稳定版本标注为 v1.1.0,日期是 2025-08-01,组件表很能说明问题:Trustiflux 负责围绕机密容器的资源安全管理与远程证明,Trustee 负责验证 TEE 环境并分发 secret,TNG 则是基于远程证明的可信网关。[2]
这才是真正的现场信号。安全叙事离开专有云复选框之后,被分解成可以映射到平台职责的组件。一个组件验证机密环境,一个组件控制 secret,一个网关模式可以在保留既有应用形态的前提下保护流量。Docker 部署路径面向单台 TDX 实例上的端到端验证与开发模拟;RPM 路径则面向带有包管理、并以 Alibaba Cloud Linux 3 为要求的生产式部署。[2]
放到中国语境里,这一层信号更加清楚。中国 AI 报道常常追踪模型家族、应用发布与价格下调。Confidential AI 指向一个更安静的层面:决定企业能否带着敏感数据从试点走向云端托管推理的软件与硬件契约。这里的胜出者未必是 benchmark 声量最大的实验室,更接近能让密钥、加密模型、运行时证明与加速器访问彼此嵌合的云与 OS 栈。
蚂蚁案例说明金融 AI 为何重视使用中保护
蚂蚁集团与 Intel 的案例研究给出了企业侧理由。蚂蚁基于阿里云 ECS g8i 实例、采用第 4 代 Intel Xeon 处理器与 Intel TDX,构建了一套机密 PaaS 产品矩阵;Intel 将 TDX 描述为一种基于硬件的 TEE,有助于在使用过程中保护客户数据与蚂蚁 AI 模型。[3] 同一案例研究还提到,蚂蚁正在探索让客户用自身数据微调 LLM 的方式,同时需要在云端微调与推理过程中保持专有数据和客户数据的机密性。[3]
这正是采用瓶颈所在。银行、保险机构、医疗运营方或工业企业可以接受把通用任务交给云端 AI,但当工作流包含客户记录、专有 prompt、微调权重、反欺诈逻辑、理赔记录或内部流程文档时,谨慎程度会明显上升。静态加密与传输加密已经是基础要求。更难填补的缺口是使用中的数据:模型输入与权重必须被 CPU、GPU、内核、运行时和运营方基础设施处理的那一刻。
案例研究还给出了一个有用的性能点,同时保持了结论边界。它说蚂蚁使用 Intel AMX 加速训练与推理中的矩阵类操作,并描述了从通用 VM 迁移到机密 VM 的过程,后者运行基于 Occlum 的安全操作系统,并具备面向 TEE 的访问控制机制。[3] 这里的实践信号指向一项工程权衡:confidential AI 需要用足够的隔离性与可证明性解锁敏感工作负载,同时保留足够的加速能力与 VM 兼容性,让团队把它纳入生产工程选择。
PAI 让安全成为企业 AI 平台的一部分
阿里巴巴云栖大会 PAI 文章把机密层与更宽的平台策略连接起来。在企业能力部分,阿里巴巴说,越来越多企业客户在云上微调并使用大模型,模型与数据安全随之更加突出;随后文章表示,PAI 在训练、微调与推理全链路提供数据合规和安全保护,并与阿里云基础软件及 Anolis 社区合作,建设覆盖硬件到软件的 Confidential AI 解决方案。[4]
把这句话与安全推理指南并读,它就不只是市场表述。PAI 是更高层的产品表面,而机密计算指南展示了较低层的机制:加密模型准备、OSS 上传、Trustee 远程证明、KMS 支撑的密钥释放、ACK 部署,以及 TEE 支撑的推理。[1][4] 同一篇 PAI 文章还讨论了 BladeLLM 与 PAI-EAS 推理服务升级,包括更低首 token 延迟、更低 token 输出延迟、更高吞吐、全球地域覆盖与大规模推理集群等主张。[4] 这些主张谈的是性能,但它们靠近企业安全出现这一点很有启发性:阿里巴巴希望模型服务同时足够快、也足够便于治理,以进入生产采购。
边界仍然重要。Confidential AI 不能证明模型质量,不能解决 prompt injection,不能决定微调数据集是否合法、具代表性或安全,也不能取代访问控制、日志记录、事件响应、输出过滤、模型评估与供应商风险审查。它真正收窄的是一类具体而关键的暴露:模型文件、prompt、训练数据与推理数据在计算过程中变得可读的路径。[1][2][3]
观察点
第一项观察点是 GPU 覆盖。阿里巴巴的 gn8v-tee 指南有价值,正在于它明确把 GPU 计算纳入 TEE 叙事,而不仅限于 CPU 侧机密 VM。[1] 对大模型推理来说,这一区分具有决定性。若团队能够看到哪些 GPU 类别、驱动栈、运行时与模型服务框架得到支持,并且配有可重复的部署示例,Confidential AI 的意义会进一步上升。
第二项观察点是证明策略的清晰度。“可信”不能停留在模糊词上。买方需要知道哪些度量会被检查、谁运营 Trustee、KMS 策略如何划定范围、密钥如何轮换,以及证明失败时模型释放如何被阻断。[1][2] 这些控制越像普通平台设置,机密推理就越能从专项工程进入敏感工作负载的默认选项。
第三项观察点是与 PAI 和模型市场的整合。如果 Confidential AI 长期停留在独立基础设施配方里,它主要吸引安全优先的平台团队。若它进入 PAI、Model Studio 或企业推理产品,成为一个可选择的部署通道,就会变成采购差异点:同一条模型路径,配上更强的运行时边界。
更窄的结论是,阿里巴巴 Confidential AI 的信号不在于一个新的模型家族,而在于信任边界正在移动。在中国 AI 技术栈里,模型层拥挤,推理层竞争激烈,企业层对风险敏感。云厂商如果能够证明模型何时应当解密、prompt 在哪里被处理、哪一种运行时被允许看见敏感数据,它就掌握了 AI 部署链条上一块更安静、也更持久的表面。[1][2][3][4][5]
来源
- 阿里云帮助中心,《基于异构机密计算实例构建安全大语言模型推理环境》(围绕
gn8v-tee、加密 Qwen 模型、Trustee 证明、KMS 支撑密钥、ACK 部署与 TEE 推理流程的 Confidential AI 指南)。 - OpenAnolis,
confidential-ai中文 README(项目范围、v1.1.0稳定版本、Trustiflux、Trustee、TNG 组件、Docker 部署、RPM 部署、TDX 要求与 Apache 2.0 许可)。 - Intel, "Ant Group Develops Confidential Computing for SaaS"(关于阿里云 ECS
g8i、Intel TDX、蚂蚁机密 PaaS/SaaS、金融 AI 场景、客户数据微调与使用中保护的客户案例)。 - 阿里云开发者社区,《云栖实录 | GenAI 时代 AI Infra 工程技术趋势与平台演进》(2024 年 9 月 27 日云栖大会文章,涉及 PAI、企业安全、Confidential AI 与 PAI-EAS/BladeLLM)。
- Wikimedia Commons, "Datacenter Server Racks"(真实数据中心机柜照片;QA 拒绝以幻灯片为主的会议图后,本文改用它作为沉浸式封面图)。