CNFinBench让金融智能体同时接受准确性与合规检验

上海证券交易所的真实照片适合这篇基准笔记，因为CNFinBench讨论的是高风险金融智能体：模型输出最终会接触受监管的市场基础设施、披露义务和操作权限边界。[6]

CNFinBench的价值在于，它拒绝让一个金融模型只凭会答从业资格考试题就显得安全。它的前提更尖锐：一个一旦被放进银行、券商、基金平台或合规部门的模型，必须按高权限金融智能体来评估。由此，领域知识、工具规划和拒答行为应当放在同一张评分表里。

截至 2026-06-28T16:32:17Z UTC，公开资料包括CNFinBench的arXiv论文、OpenCompass代码库、在线评测平台，以及围绕2025金融大模型评测体系的上海市级发布背景。[1][2][3] 对AI-China而言，重点信号超出新增榜单本身：中国金融AI评测栈正在从“模型懂不懂金融”，转向“当金融流程变成交互式时，模型能否保持有用、按程序推进并守住合规要求”。

图片语境：封面使用一张来自Wikimedia Commons的上海证券交易所大楼真实照片，使文章落在真实的中国金融市场基础设施上，区别于图表、标志拼贴或泛化AI图像。[6]

CNFinBench新增了什么

理解CNFinBench的简明方式，是把它看作此前两个中国金融基准之上的下一层。CFinBench于2024年发布，大规模测试中文金融知识：99,100道题、43个二级类别，三类题型覆盖金融学科、资格考试、实务和法律。[5] 它的价值在于把中文金融领域知识变成可测对象，并显示即使是强模型，仍有明显改进空间。[5]

FinGAIA随后把评测单位从知识推向工作流。论文描述了407项经过专家验证的金融智能体任务，覆盖证券、基金、银行、保险、期货、信托和资产管理，并设置三层任务深度：运营分析、资产决策支持和战略风险管理。[4] 在零样本评测中，排名最高的智能体总体准确率达到48.9%，仍落后金融专家超过35个百分点。[4] 这个结果重要，因为它暴露了“会回答”和“能贯穿多步金融任务运转”之间的差距。

CNFinBench保留这两条经验，同时加入更硬的第三项要求。其代码库描述了三个相互正交的轴：Expertise、Autonomy和Integrity。[2] Expertise覆盖专业金融知识与推理。Autonomy覆盖多步规划、工具使用和智能体执行。Integrity覆盖对抗性交互下的安全、合规和稳健性。[2] 已发布的规模并不小：29项子任务、11,947个单轮问答样本、321组四轮对抗式对话，以及覆盖开源、闭源和金融调优系统的22个被评测模型。[2]

这种设计本身就是重点。金融智能体的失败可以来自不懂规则，也可以来自懂规则却排错操作顺序，还可以来自三轮施压后顺从有害请求。这些属于不同失效类型。CNFinBench把它们拆分到足以诊断的程度。

评测边界

CNFinBench的评测范围在分类法中很清楚。Expertise仍然必要，但已不再承担全部评测。模型可以知道披露义务与适当性义务的区别；这还不能说明它能解析文件、判断应调用哪项工具、保存证据链，并在用户要求绕过控制时停下。

Autonomy轴因此是操作层。README把端到端执行表述为 Intent -> Plan -> Tool -> Verification，并把战略规划和元认知可靠性放在同一层考察。[2] 这和普通金融问答属于不同测试。它追问智能体能否拆解请求，使用工具时不虚构能力，在信息不完整时恢复推进，并在返回用户会据此行动的内容前检查自己的答案。

Integrity轴是最重要的新增部分。CNFinBench引入Harmful Instruction Compliance Score，简称HICS，这是一个面向多轮金融对话的多维度、带严重度权重的安全指标。[2] 它的目的超出检测模型是否会在第一轮拒绝显而易见的坏提示。它要跟踪的是，当对抗性用户重新包装请求、加入权威措辞、诉诸紧迫性，或从抽象建议推进到具体操作程序时，模型的合规性是否会被逐步磨损。[1][2]

在金融领域，这一区分很重要。静态拒答看起来可以很强，但多轮对话会一步步把模型带向披露受限流程细节、生成误导性适当性表述、编造审计轨迹，或帮助用户规避内部控制。HICS的用处正在于，它把安全理解为压力下的持续保持，单次是否拒绝无法覆盖这一层。

为什么上海背景重要

上海市围绕2025金融大模型评测体系发布的信息，提供了制度背景。该发布把大模型评测体系描述为一组指标、方法、基准和流程，用于评估性能、安全性和可靠性，并将其定位为金融行业开展科学模型选型和能力比较的“标尺”。[3]

同一发布称，2025评测体系汇集4个公开数据集和22个自建数据集，共约36,000个评测数据点，并采用选项洗牌、多样化提示词、金融裁判模型和自动化标准评测。[3] 这些细节与CNFinBench分属不同公开资料，却解释了CNFinBench为何在中国具备清晰的制度脉络。金融LLM评测正在被视作银行、券商、基金、投资机构和风控团队的选型基础设施，学术支线项目的色彩正在减弱。[3]

这和随意围观榜单的基准旅游式使用相距很远。在受监管的金融市场里，有用的基准要能超过漂亮分数表：它应告诉模型采购团队，哪些失败属于知识缺口，哪些失败属于工作流缺口，哪些失败已经触及合规断点。

读分数时保留分寸

CNFinBench适合作为诊断框架使用，不能当作产品证书。其公开平台可以给模型排名，代码库也称其支持开源和闭源模型的统一评测、任务感知评分细则、LLM-as-judge协议、实时榜单更新，以及任务和模型的动态接入。[2] 这套基础设施有用；机构自身测试仍然要保留。

至少有四个边界需要保留。

第一，基准面向中国语境下的金融工作。这正是它的价值所在，但分数不得未经本地法律与操作审查就直接搬到美国、欧盟、新加坡或香港合规环境里。跨境金融会改变语言、授权、产品、披露规范和监管预期。

第二，基准混合了不同能力类型。高Expertise分数无法保证安全的工具执行。强Autonomy分数无法保证适当性纪律。某一对抗设计下的Integrity分数，也无法证明模型会抵御真实客户对话里的每一种施压模式。

第三，LLM-as-judge评测需要校准。它是扩展重判断任务的实用途径，CNFinBench的任务感知评分细则也是其长处。[2] 同时，在把基准输出作为治理证据之前，受监管金融机构仍需抽样人工复核、回归测试、审计日志和成文裁决规则。

第四，金融有时效性。监管规定、产品手册、交易所规则、市场数据模式、API权限和内部控制都会变化。模型即便通过静态基准，仍会出现知识过期、权限过宽，或与机构当前程序错位的问题。

部署教训

这篇文章的实践结论偏保守：CNFinBench应促使金融AI团队在授予智能体写入权限、面向客户的权限或合规敏感权限之前，抬高准入门槛。

严肃的部署关口至少要拆出五个问题。模型是否理解相关中文金融术语和规则结构？它能否检索并引用正确来源，而不拿一条听起来可信的规则替代？它能否按正确顺序规划工具调用？它能否保留从输入到答案的可追溯性？它能否抵御多轮尝试，避免用户把被禁止动作包装成普通业务请求？

最后一个问题正是CNFinBench最强的地方。许多金融智能体演示停在任务成功完成：读取这份报告、筛选这些股票、填写这张表、概括这只基金、解释这条条款。CNFinBench提出了更难的终点线。智能体必须完成有用工作，同时保持信任边界完整。

这也改变了观察AI-China进展的方式。重要信号已经不只在于中国模型是否在广泛推理或代码基准上追上前沿模型，还在于国内评测基础设施能否测量模型能力与机构部署之间那层复杂中间地带。CNFinBench、FinGAIA、CFinBench和上海评测体系背景，如今形成知识、工作流与合规持续性的连续序列。[3][4][5]

下一项观察重点是可复现性。更强的公开榜单需要更清楚的隐藏测试处理、污染控制、裁判校准、任务刷新节奏，以及从基准失效到真实银行、券商、保险、基金和资管控制措施之间更透明的映射。条件不足时，基准仍是有用的研究工具；条件成熟后，它能够进入严肃的模型风险管理循环。

更准确的读法是：CNFinBench证明的纪律方向相反。在专业性、自主性与完整性被一起测量之前，金融智能体还没有资格被称为准备就绪。

cronfeed.work