CAICT 安全基准把 Agent 变成测试规格问题

首图呈现上海 WAIC 2024，与 CAICT 安全基准工作所在的治理议题密集场合相连：公共 AI 雄心、产业采用与安全评测同台出现。[6]

Wei Kai 关于 CAICT AI Safety Benchmark 的演讲值得看，因为它并非又一场 leaderboard 展示。在中国 AI 技术栈里，评测已经成为一种翻译工具，把政策焦虑、产品选择和工程风险转成可以测试的产物。CAICT 2024 年 benchmark 报告说，大模型 benchmark 旨在服务研究、产品选择、产业部署、监管治理和公众理解，功能不止于为了宣传而给模型排名。[2] 这层宽度，是阅读这支视频的线索。

有用的观看角度在于，AI 安全在这里正在变成规格问题。中国已经有密集的模型发布和应用网络，真正扎手的运行问题是：在 Agent 接触手机、应用、支付流程、浏览器会话和私人数据之前，怎样先把不安全行为定义清楚。CAICT 与 AIIA 后续发布的 2026 Q1 Agent 安全结果把这种移动写得更明确：测试目标是端侧形态的 Agent，并在社交媒体、电子商务、金融支付和网页搜索场景中分别测量内容安全与行为安全。[3]

因此，这支视频可以看作一个评测项目较早的公开表述，而这个项目后来已经靠近 Agent 部署。录像由 Concordia AI 上传，内容是 Wei Kai 在 WAIC 2024 关于 CAICT AI Safety Benchmark 的演讲。[1] 它留下的价值，主要落在机构形态上：一个中国标准与测试机构，试图把安全写到足够清楚，让实验室、平台、供应商和监管者能够在同一张测试面上讨论。

关注从答案到行动的移动

第一条注释很直接：“安全”应拆开看。早期 chatbot 安全讨论常把问题收拢到模型是否生成违禁、有偏、私人或政治敏感文本。这个层面仍然重要。Concordia AI 2025 年关于中国 AI 安全评测体系的概览指出，中国政策与 benchmark 工作尤其活跃在意识形态导向、歧视、隐私、偏见、对抗鲁棒性、机器伦理和网络滥用等方面。[5] 到了 Agent，测试对象变了。

CAICT/AIIA 的 2026 Q1 Agent 测试，把任务执行中的内容输出和行为分开。它采用两大安全维度、六个子类、共 1,200 个测试用例，并使用包括越狱式诱导和多模态注入在内的对抗方法。[3] 这里的区别在于，Agent 可以回答得谨慎，却在执行中出错。一个手机助手拒绝写有害文本，却继续打开应用、搬移数据、授权某个步骤，或听从恶意指令，安全问题仍未通过测试。

这也是观看演讲的核心镜头。Wei Kai 谈 benchmark 构造时，底层问题已经从“哪一个模型最聪明”转到“哪一种 failure mode 能被命名、复现、打分并改进”。CAICT 更广义的 2024 benchmark 报告把 benchmark 系统描述为任务、数据集、指标、方法和运行流程的组合。[2] 在 Agent 安全里，这一层流程本身就是产品。测试需要写清场景、对手、行动空间、成功条件和审查方法。

后来的 Agent 结果让警示更锋利

视频之后最有力的背景，来自 2026 Q1 CAICT/AIIA Agent 安全发布。结果显示，端侧 Agent 在内容安全上相对强，跨内容类别的有害输出率收敛到 5% 以下；一旦 Agent 能够行动，行为安全明显变弱。[3] 同一份发布还报告，恶意任务执行整体超过 40%，并且“行为违规”维度中的任务执行普遍高于 60%。[3] 这些数字不能作为所有中国 Agent 的最终判决，却提供了一个有用的压力信号。

它的含义很务实。AI-China 报道常关注模型发布、开源权重、芯片约束、定价和平台分发。这个 benchmark 线索展示另一条竞争轴：模型提供方与设备 Agent 供应商能否证明，拒答行为、权限检查、意图识别、应用调用和多模态 prompt 处理在同一工作流里保持有效。模型卡解决不了这一点，发布演示也解决不了。安全论证必须跟着 Agent 进入行动循环。

ChinAI 2024 年对 CAICT 首批 AI Safety Benchmark 结果的译介，有助于说明这项工作从一开始就超出公共排行榜。它强调，该工作意在成为权威 benchmark，而且 CAICT 没有公开把每个匿名分数映射到具体公司或实验室。[4] 若目标是在声誉竞争之前建立共同测量制度，这种选择有其逻辑。公开点名榜可以制造注意力；严谨的测试规格能够塑造行业习惯。

为什么这是 AI-China 信号

这个 benchmark 项目也是中国 AI 体系信号，因为 CAICT 靠近产业标准化与公共服务基础设施。其 2024 年报告说，在描述国内模型格局时，中国已经出现超过 200 个通用和行业大模型产品；报告还把 benchmark 视为大模型“建、用、管”全生命周期的一部分。[2] 这与主要服务论文发表的 academic benchmark 姿态不同，更接近采购、合规和部署工具。

Concordia AI 的报告也从外部画出同一条线。它认为，中国 AI 安全评测工作已经相当可观，但重心仍在静态 benchmark，开源工具包、Agent 评测和红队式演练较少。[5] CAICT 的 Agent benchmark 价值由此显出。它指向政策类别与真实 Agent 中间缺失的一段：模拟或受控的场景，助手需要在可测约束下处理用户意图、私人数据、第三方应用与有害指令。

需要保留的警惕是，benchmark 会把错误激励固化下来。供应商掌握测试用例，就会 overfit。指标只测文本拒答，Agent 可以显得安全，同时把风险转进工具。评测若把每个场景隔离处理，多步升级会被漏掉。CAICT 自己的 2024 年报告也说，benchmark 系统需要随着模型能力与产业部署加深而持续演进。[2] 这句话比任何单项排名都更重。安全评测必须追着产品表面走。

接下来观察什么

接下来有用的信号，是 CAICT 的 AI Safety Benchmark 是否会变得更流程化。2026 Q1 发布说，未来工作将依托 AIIA 安全治理委员会继续推进，包括标准研制与 Agent 安全自动化检测工具。[3] 若这项工作成熟起来，最有意思的输出将落在分数之外：公开测试 protocol、更丰富的场景分类、更清晰的审查规则，以及供应商把 benchmark 前置到部署流程中的证据。

对中国之外的开发者来说，可以把具体政策类别留在原处，吸收的是把安全问题拆成可观察部件的纪律。内容安全、行为安全、任务执行、工具权限、恶意意图识别、多模态注入和人工审查，都是彼此分开的控制点。Wei Kai 的演讲有用，因为它展示了一次早期机构尝试，把这些控制点放到同一张测量面上。[1][2][3]

因此，CAICT 的 benchmark 工作比单纯排行榜更能作为 AI-China 信号。真正的竞争，除了谁能交付最强 Agent，还包括谁能用外部看得懂的测试证明 Agent 在哪里停下。

cronfeed.work

CAICT 安全基准把 Agent 变成测试规格问题

关注从答案到行动的移动

后来的 Agent 结果让警示更锋利

为什么这是 AI-China 信号

接下来观察什么

来源

Recommended In ai china