C-Eval 的价值不止榜单：它把中文考试变成可检查的评测题

清华大学旧校门的真实照片适合这篇文章，因为 C-Eval 的作者背景与中国学术评测相连，距离泛化的 AI 产品发布舞台更远。[5]

截至 2026-05-18 UTC，C-Eval 留下的持久信号，已经超出 2023 年那份模型排名。它更有用的贡献，是把中文学业考试推成一条 benchmark boundary。中国模型提供方若宣称自己在中文知识、STEM 推理、职业资格式题目，或者贴近课堂的任务上表现强，C-Eval 让读者可以继续追问：实际测了哪些科目，采用哪个 split，使用什么提示词形式，怎样抽取答案。

追问还会继续落到评测对象上：模型接受的是中文考试能力评判，还是翻译题或文化厚度较薄的替代指标。[1][2]

这条界线今天仍然重要，因为 AI-China 进展常被包装成快速能力差值：新模型超过旧分数，小型 MoE 追上更大的 dense 系统，或者国产发布在混合表格中看起来接近国际前沿模型。表格有用途，平均分也会遮蔽任务契约。C-Eval 的设计让这份契约更容易检查。其公开仓库描述了覆盖 52 个学科、四个难度等级的 13,948 道选择题，论文则把这些等级界定为初中、高中、大学和职业。[1][2]

图片说明：封面使用 Wikimedia Commons 上清华大学旧校门的真实照片。它作为一则中国学术评测故事的地点锚点使用，不承担基准证据功能；该故事的作者包括清华大学及其他机构的研究人员。[2][5]

重要转向在于本地化考试表面

MMLU 给模型世界留下一套清晰且黏性很强的模板：用跨 57 个任务的多项选择题评估广域多任务知识，覆盖数学、美国历史、计算机科学、法律等领域。[4] 这种设计之所以产生影响，是因为它给通用模型安排了一次单一的跨领域压力测试。但围绕美国学术和职业分类创建的基准，无法完整回答一个中国语境里的问题：模型能否进入中文教育语言、中文学科分类、中文考试措辞和中文用户预期之内工作？

C-Eval 的回答，是保留多项选择考试形态，同时更换文化与语言基底。这个基准覆盖 STEM、社会科学、人文学科和其他类别。仓库中的学科映射和示例揭示了更实际的一点：模型必须阅读中文提示，处理中文答案格式，并在计算机网络、化学、物理、数学、法律、医学、会计、公共部门知识等中文考试题目上作答。[1] 论文摘要也以更宽的表述说明了同一目的：C-Eval 旨在评估中文语境中的高级知识与推理能力。[2]

由此看，C-Eval 更像是评测本身的本地化测试，而并非只是 MMLU 的翻译镜像。一个模型可以在英语占比高的通用基准上表现良好，同时在中文考试习惯、本地课程分布或领域词汇上失分。反过来，一个面向中国语境优化的模型，也只有在评测题面允许它发挥时，才能显出真实强项。[1][2][4]

Split 设计本身就是评测主张的一部分

C-Eval 的公开仓库有价值，原因在于它说明了分数应当怎样产生，而不仅仅展示榜单曾经怎样排列。每个学科都有 dev、validation 和 test split。dev 集为每个学科放入五个带解释的样例，用于 few-shot 评测。validation 集可用于调参和参考，test 集则用于评估；在早期流程中，test split 的标签被保留，用户提交预测后获得测试准确率。[1]

这种 split 纪律属于基准治理的核心。它决定一个基准能否支撑公开声明，还是会静悄悄变成题库式训练数据。仓库在 2025 年 7 月的说明中提到，完整 C-Eval test set 后来已向社区发布，这提升了可访问性，同时也改变了读者对后续分数的理解方式。[1] 在此之后仍使用 C-Eval 的模型报告，应明确结果究竟来自干净的 held-out 评估、validation-set 检查、受污染的回看分数，还是与旧公开表格之间的方向性比较。

这是当前阅读 AI-China 信息时的主要提醒。C-Eval 仍然有用，但它的用处取决于评测包络是否被保留：split 选择、提示词模板、答案抽取、采样方式，以及 test 暴露是否进入模型训练或后训练数据。缺少这些细节时，“C-Eval 分数提升”只能提供较弱的市场信号。[1][2]

答案抽取规则藏着另一条界线

仓库中的评测说明非常实用。在常规 few-shot 设置下，作者表示，用户通常可以用正则表达式抽取生成答案 token，也就是 A 到 D。但他们同时提醒，未经指令微调的 zero-shot 模型未必会生成格式良好的答案。在这种情况下，他们建议计算各选项的概率并选择最高者，也就是一种受约束的解码做法，并把它与官方 MMLU 测试代码联系起来。他们还说明，这种概率方法不适用于 chain-of-thought 设置。[1]

这一段是整个基准中最重要的细节之一。C-Eval 分数不只涉及模型知识，也取决于模型和评测器怎样相接。一个经过聊天微调、能干净遵循 “Answer:” 的模型，在答案 token 抽取下会占优；另一个 base model 即使知道内容，也会因回复格式差而受罚。受约束解码可以降低这类格式惩罚，但比较条件随之变化。chain-of-thought 提示可以改变推理路径，也会改变选项概率计分是否有效。[1]

放在 AI-China 模型声明中，这一点尤其重要，因为中国提供方经常在开源权重、托管 API、聊天应用、编码 shell 和 agent 界面之间快速报告结果。如果两家厂商都引用 C-Eval，一家使用只输出答案的提示，一家使用 chain-of-thought 提示，第三家暗中使用选项概率，那么这些表格行之间无法干净比较。基准仍能提供帮助，但分数必须连同 harness 一起移动。[1][2]

C-Eval Hard 给平均分加上压力测试

平均分适合做广域追踪，但 C-Eval 的困难子集诊断力更强。仓库把 C-Eval Hard 定义为八个有挑战的数学、物理和化学学科：高等数学、离散数学、概率统计、大学化学、大学物理、高中数学、高中化学和高中物理。[1] 论文同样把 C-Eval Hard 描述为一组需要高级推理能力的高难度学科子集。[2]

在这里，基准开始区分知识广度与推理压力。模型可以依靠更容易的识别题，或在记忆性领域里的强表现抬高总体分数，却在中文记号、多步计算和考试式推理汇合时遇到困难。这个差异对解读中国 LLM 进展十分核心。一个版本提升了 C-Eval 平均分，却没有提升 C-Eval Hard，发出的信号不同于平均分与困难子集同时提升的版本。[1][2]

与 CMMLU 的比较进一步强化了这一点。CMMLU 于 2023 年 6 月提交、2024 年 1 月修订，同样面向中文的大规模多任务语言理解，覆盖自然科学、社会科学、工程和人文学科。其摘要报告称，即便加入 in-context 示例和 chain-of-thought 提示，多数被评估 LLM 也难以达到 50% 的平均准确率，而随机基线为 25%。[3] 与 C-Eval 放在一起读，CMMLU 表明中文评测已经从单个基准事件，长成了围绕同一缺口展开的一组回应：以英语为中心的评测无法完整解释中文语境中的模型能力。[2][3][4]

供应商引用时应观察什么

2026 年使用 C-Eval 的合适方式，是把它视为一组有清楚边界的问题，用来提高模型声明的可证伪性。

第一，询问供应商报告的是 C-Eval average、C-Eval Hard，还是选定学科切片。它们不能互换。困难子集增益比单一广域平均分更能说明中文 STEM 推理能力。[1][2]

第二，询问结果属于 zero-shot、few-shot、仅答案输出、chain-of-thought、受约束解码，还是简单生成解析。C-Eval 自身说明已经写明，格式与计分方法会影响结果。[1]

第三，询问该基准是否作为干净的 held-out test 使用。由于仓库后来释放了完整 test set，现代 model card 应直接处理暴露风险，不能只给出一个缺少来源脉络的数字。[1]

第四，把 C-Eval 与 CMMLU 等相邻中文基准一起比较，而不要把单个分数当成完整地图。如果两者同向移动，能力声明更强。如果两者分叉，差异会暴露语言、学科组合、提示词风格或污染效应。[2][3]

较窄的结论是，C-Eval 的长期价值在方法上。它不只是给中国模型留了一个本地榜单；它还给评测者留下一种表达方式：这里是语言，这里是课程形状，这里是 split，这里是困难子集，这里是提示词，这里是抽取规则。对于一个经常把基准差值快速转成产品声明的市场，这条界线仍然有用。[1][2][3][4]

cronfeed.work