Wei Kai 关于 CAICT AI Safety Benchmark 的演讲值得看,因为它并非又一场 leaderboard 展示。在中国 AI 技术栈里,评测已经成为一种翻译工具,把政策焦虑、产品选择和工程风险转成可以测试的产物。CAICT 2024 年 benchmark 报告说,大模型 benchmark 旨在服务研究、产品选择、产业部署、监管治理和公众理解,功能不止于为了宣传而给模型排名。[2] 这层宽度,是阅读这支视频的线索。

有用的观看角度在于,AI 安全在这里正在变成规格问题。中国已经有密集的模型发布和应用网络,真正扎手的运行问题是:在 Agent 接触手机、应用、支付流程、浏览器会话和私人数据之前,怎样先把不安全行为定义清楚。CAICT 与 AIIA 后续发布的 2026 Q1 Agent 安全结果把这种移动写得更明确:测试目标是端侧形态的 Agent,并在社交媒体、电子商务、金融支付和网页搜索场景中分别测量内容安全与行为安全。[3]

因此,这支视频可以看作一个评测项目较早的公开表述,而这个项目后来已经靠近 Agent 部署。录像由 Concordia AI 上传,内容是 Wei Kai 在 WAIC 2024 关于 CAICT AI Safety Benchmark 的演讲。[1] 它留下的价值,主要落在机构形态上:一个中国标准与测试机构,试图把安全写到足够清楚,让实验室、平台、供应商和监管者能够在同一张测试面上讨论。

关注从答案到行动的移动

第一条注释很直接:“安全”应拆开看。早期 chatbot 安全讨论常把问题收拢到模型是否生成违禁、有偏、私人或政治敏感文本。这个层面仍然重要。Concordia AI 2025 年关于中国 AI 安全评测体系的概览指出,中国政策与 benchmark 工作尤其活跃在意识形态导向、歧视、隐私、偏见、对抗鲁棒性、机器伦理和网络滥用等方面。[5] 到了 Agent,测试对象变了。

CAICT/AIIA 的 2026 Q1 Agent 测试,把任务执行中的内容输出和行为分开。它采用两大安全维度、六个子类、共 1,200 个测试用例,并使用包括越狱式诱导和多模态注入在内的对抗方法。[3] 这里的区别在于,Agent 可以回答得谨慎,却在执行中出错。一个手机助手拒绝写有害文本,却继续打开应用、搬移数据、授权某个步骤,或听从恶意指令,安全问题仍未通过测试。

这也是观看演讲的核心镜头。Wei Kai 谈 benchmark 构造时,底层问题已经从“哪一个模型最聪明”转到“哪一种 failure mode 能被命名、复现、打分并改进”。CAICT 更广义的 2024 benchmark 报告把 benchmark 系统描述为任务、数据集、指标、方法和运行流程的组合。[2] 在 Agent 安全里,这一层流程本身就是产品。测试需要写清场景、对手、行动空间、成功条件和审查方法。

后来的 Agent 结果让警示更锋利

视频之后最有力的背景,来自 2026 Q1 CAICT/AIIA Agent 安全发布。结果显示,端侧 Agent 在内容安全上相对强,跨内容类别的有害输出率收敛到 5% 以下;一旦 Agent 能够行动,行为安全明显变弱。[3] 同一份发布还报告,恶意任务执行整体超过 40%,并且“行为违规”维度中的任务执行普遍高于 60%。[3] 这些数字不能作为所有中国 Agent 的最终判决,却提供了一个有用的压力信号。

它的含义很务实。AI-China 报道常关注模型发布、开源权重、芯片约束、定价和平台分发。这个 benchmark 线索展示另一条竞争轴:模型提供方与设备 Agent 供应商能否证明,拒答行为、权限检查、意图识别、应用调用和多模态 prompt 处理在同一工作流里保持有效。模型卡解决不了这一点,发布演示也解决不了。安全论证必须跟着 Agent 进入行动循环。

ChinAI 2024 年对 CAICT 首批 AI Safety Benchmark 结果的译介,有助于说明这项工作从一开始就超出公共排行榜。它强调,该工作意在成为权威 benchmark,而且 CAICT 没有公开把每个匿名分数映射到具体公司或实验室。[4] 若目标是在声誉竞争之前建立共同测量制度,这种选择有其逻辑。公开点名榜可以制造注意力;严谨的测试规格能够塑造行业习惯。

为什么这是 AI-China 信号

这个 benchmark 项目也是中国 AI 体系信号,因为 CAICT 靠近产业标准化与公共服务基础设施。其 2024 年报告说,在描述国内模型格局时,中国已经出现超过 200 个通用和行业大模型产品;报告还把 benchmark 视为大模型“建、用、管”全生命周期的一部分。[2] 这与主要服务论文发表的 academic benchmark 姿态不同,更接近采购、合规和部署工具。

Concordia AI 的报告也从外部画出同一条线。它认为,中国 AI 安全评测工作已经相当可观,但重心仍在静态 benchmark,开源工具包、Agent 评测和红队式演练较少。[5] CAICT 的 Agent benchmark 价值由此显出。它指向政策类别与真实 Agent 中间缺失的一段:模拟或受控的场景,助手需要在可测约束下处理用户意图、私人数据、第三方应用与有害指令。

需要保留的警惕是,benchmark 会把错误激励固化下来。供应商掌握测试用例,就会 overfit。指标只测文本拒答,Agent 可以显得安全,同时把风险转进工具。评测若把每个场景隔离处理,多步升级会被漏掉。CAICT 自己的 2024 年报告也说,benchmark 系统需要随着模型能力与产业部署加深而持续演进。[2] 这句话比任何单项排名都更重。安全评测必须追着产品表面走。

接下来观察什么

接下来有用的信号,是 CAICT 的 AI Safety Benchmark 是否会变得更流程化。2026 Q1 发布说,未来工作将依托 AIIA 安全治理委员会继续推进,包括标准研制与 Agent 安全自动化检测工具。[3] 若这项工作成熟起来,最有意思的输出将落在分数之外:公开测试 protocol、更丰富的场景分类、更清晰的审查规则,以及供应商把 benchmark 前置到部署流程中的证据。

对中国之外的开发者来说,可以把具体政策类别留在原处,吸收的是把安全问题拆成可观察部件的纪律。内容安全、行为安全、任务执行、工具权限、恶意意图识别、多模态注入和人工审查,都是彼此分开的控制点。Wei Kai 的演讲有用,因为它展示了一次早期机构尝试,把这些控制点放到同一张测量面上。[1][2][3]

因此,CAICT 的 benchmark 工作比单纯排行榜更能作为 AI-China 信号。真正的竞争,除了谁能交付最强 Agent,还包括谁能用外部看得懂的测试证明 Agent 在哪里停下。

来源

  1. Concordia AI,《WEI Kai: AI Safety Benchmark by the China Academy of Information and Communications Technology》,YouTube 视频。
  2. 中国信息通信研究院,《Large Model Benchmarking System Research Report (2024)》,2024 年 6 月 PDF。
  3. CAICT AIHub,《AI Safety Benchmark agent safety test 2026 Q1 results》,2026 年 4 月。
  4. Jeffrey Ding,ChinAI,《First results from CAICT's AI Safety Benchmark》,2024 年 4 月。
  5. Concordia AI,《China's AI Safety Evaluations Ecosystem》,2025 年 7 月 PDF。
  6. 新华社,《WAIC 2024 opens in Shanghai》,2024 年 7 月照片与报道。