截至 2026-05-18 UTC,C-Eval 留下的持久信号,并非 2023 年又多出一个模型排名。它更有用的贡献在于把中文学业考试推成了一条 benchmark boundary。一旦中国模型提供方宣称自己在中文知识、STEM 推理、职业资格式题目,或者贴近课堂的任务上表现强,C-Eval 就给读者提供了具体追问方式:实际测了哪些科目、采用哪个 split、使用什么提示词形式、怎样抽取答案,以及模型接受的是中文考试能力评判,还是翻译题或文化厚度较薄的替代指标。[1][2]
这条边界今天仍然重要,因为 AI-China 进展常被包装成快速能力差值:新模型超过旧分数,小型 MoE 追上更大的 dense 系统,或者国产发布在混合表格中看起来接近国际前沿模型。问题不在于这些表格失去用途,而在于平均分会遮蔽任务契约。C-Eval 的设计让这份契约更容易被检查。其公开仓库描述了覆盖 52 个学科、四个难度等级的 13,948 道选择题,论文则把这些等级界定为初中、高中、大学和职业。[1][2]
图片语境:封面使用 Wikimedia Commons 上清华大学旧校门的真实照片。它作为一则中国学术评测故事的场景锚点使用,并不承担基准证据功能;该故事的作者包括清华大学及其他机构的研究人员。[2][5]
重要转向在于本地化考试表面
MMLU 给模型世界提供了一套清晰且黏性很强的模板:用跨 57 个任务的多项选择题评估广域多任务知识,覆盖数学、美国历史、计算机科学、法律等领域。[4] 这种设计之所以产生影响,是因为它给通用模型提供了单一的跨领域压力测试。但围绕美国学术和职业分类创建的基准,无法完整回答一个中国语境里的问题:模型能否进入中文教育语言、中文学科分类、中文考试措辞和中文用户预期之内工作?
C-Eval 的回答,是保留多项选择考试形态,同时更换文化与语言基底。这个基准覆盖 STEM、社会科学、人文学科和其他类别,但仓库中的学科映射和示例揭示了更实际的一点:模型必须阅读中文提示,处理中文答案格式,并在计算机网络、化学、物理、数学、法律、医学、会计、公共部门知识等中文考试题目上完成作答。[1] 论文摘要也以更宽的表述说明了同一目的:C-Eval 旨在评估中文语境中的高级知识与推理能力。[2]
由此看,C-Eval 更像是评测本身的本地化测试,而不只是 MMLU 的翻译镜像。一个模型可以在英语占比高的通用基准上表现良好,同时在中文考试习惯、本地课程分布或领域词汇上失分。反过来,一个面向中国语境优化的模型,也只有在评测表面给它合法展示空间时,才能显出真实强项。[1][2][4]
Split 设计本身就是评测主张的一部分
C-Eval 的公开仓库有价值,原因在于它说明了分数应当怎样产生,而不仅仅展示榜单曾经怎样排列。每个学科都有 dev、validation 和 test split。dev 集为每个学科提供 五个带解释的样例,用于 few-shot 评测。validation 集可用于调参和参考,test 集则用于评估;在早期流程中,test split 的标签被保留,用户提交预测后获得测试准确率。[1]
这种 split 纪律属于基准治理的核心。它决定一个基准能否支撑公开声明,还是会静悄悄变成题库式训练数据。仓库在 2025 年 7 月的说明中提到,完整 C-Eval test set 后来已向社区发布,这提升了可访问性,同时也改变了读者对后续分数的理解方式。[1] 在此之后仍使用 C-Eval 的模型报告,应明确结果究竟来自干净的 held-out 评估、validation-set 检查、受污染的回看分数,还是与旧公开表格之间的方向性比较。
这是当前阅读 AI-China 信息时的主要提醒。C-Eval 仍然有用,但它的用处取决于评测包络是否被保留:split 选择、提示词模板、答案抽取、采样方式,以及 test 暴露是否进入模型训练或后训练数据。缺少这些细节时,“C-Eval 分数提升”只能提供较弱的市场信号。[1][2]
答案抽取规则是一条隐藏的基准边界
仓库中的评测说明非常实用。在常规 few-shot 设置下,作者表示,用户通常可以用正则表达式抽取生成答案 token,也就是 A 到 D。但他们同时提醒,未经指令微调的 zero-shot 模型未必会生成格式良好的答案。在这种情况下,他们建议计算各选项的概率并选择最高者,也就是一种受约束的解码做法,并把它与官方 MMLU 测试代码联系起来。他们还说明,这种概率方法不适用于 chain-of-thought 设置。[1]
这一段是整个基准中最重要的细节之一。它意味着 C-Eval 分数不只涉及模型知识,也取决于模型与评测器之间的接口。一个经过聊天微调、能干净遵循 “Answer:” 的模型,在答案 token 抽取下会显得更好;另一个 base model 或许知道内容,却因回复格式差而受罚。受约束解码可以降低这类格式惩罚,但比较条件随之变化。chain-of-thought 提示可以改变推理路径,也会改变选项概率计分是否有效。[1]
放在 AI-China 模型声明中,这一点尤其重要,因为中国提供方经常在开源权重、托管 API、聊天应用、编码 shell 和 agent 界面之间快速报告结果。如果两家厂商都引用 C-Eval,一家使用只输出答案的提示,一家使用 chain-of-thought 提示,第三家暗中使用选项概率,那么这些表格行之间无法干净比较。基准仍能提供帮助,但分数必须连同 harness 一起移动。[1][2]
C-Eval Hard 给平均分加上压力测试
平均分适合做广域追踪,但 C-Eval 的困难子集诊断力更强。仓库把 C-Eval Hard 定义为八个有挑战的数学、物理和化学学科:高等数学、离散数学、概率统计、大学化学、大学物理、高中数学、高中化学和高中物理。[1] 论文同样把 C-Eval Hard 描述为一组需要高级推理能力的高难度学科子集。[2]
在这里,基准开始区分知识广度与推理压力。模型可以依靠更容易的识别题,或在记忆性领域里的强表现抬高总体分数,却在中文记号、多步计算和考试式推理汇合时遇到困难。这个差异对解读中国 LLM 进展十分核心。一个版本提升了 C-Eval 平均分,却没有提升 C-Eval Hard,发出的信号不同于平均分与困难子集同时提升的版本。[1][2]
与 CMMLU 的比较进一步强化了这一点。CMMLU 于 2023 年 6 月提交、2024 年 1 月修订,同样面向中文的大规模多任务语言理解,覆盖自然科学、社会科学、工程和人文学科。其摘要报告称,即便加入 in-context 示例和 chain-of-thought 提示,多数被评估 LLM 也难以达到 50% 的平均准确率,而随机基线为 25%。[3] 与 C-Eval 放在一起读,CMMLU 表明中文评测并非一次性的单基准事件。它已经成为围绕同一缺口形成的生态回应:以英语为中心的评测无法完整解释中文语境中的模型能力。[2][3][4]
供应商引用时应观察什么
2026 年使用 C-Eval 的合适方式,是把它视为一组结构化问题,用来提高模型声明的可证伪性。
第一,询问供应商报告的是 C-Eval average、C-Eval Hard,还是选定学科切片。它们不能互换。困难子集增益比单一广域平均分更能说明中文 STEM 推理能力。[1][2]
第二,询问结果属于 zero-shot、few-shot、仅答案输出、chain-of-thought、受约束解码,还是简单生成解析。C-Eval 自身说明已经写明,格式与计分方法会影响结果。[1]
第三,询问该基准是否作为干净的 held-out test 使用。由于仓库后来释放了完整 test set,现代 model card 应直接处理暴露风险,不能只给出一个缺少来源脉络的数字。[1]
第四,把 C-Eval 与 CMMLU 等相邻中文基准一起比较,而不要把单个分数当成完整地图。如果两者同向移动,能力声明更强。如果两者分叉,差异会暴露语言、学科组合、提示词风格或污染效应。[2][3]
较窄的结论是,C-Eval 的长期价值在方法层面。它不只是给中国模型提供了一个本地榜单;它还给评测者提供了一种表达方式:这里是语言,这里是课程形状,这里是 split,这里是困难子集,这里是提示词,这里是抽取规则。对于一个经常把基准差值快速转成产品声明的市场,这条边界仍然是有用的部分。[1][2][3][4]
来源
- HKUST NLP,
cevalGitHub repository(C-Eval 仓库;13,948 道多项选择题、52 个学科、四个难度等级、split 设计、C-Eval Hard 学科、评测说明,以及 2025 年 7 月完整 test set 发布说明)。 - Yuzhen Huang et al., "C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models"(arXiv:2305.08322;2023 年 5 月 15 日提交;2023 年 11 月 6 日修订;NeurIPS 2023 benchmark paper)。
- Haonan Li et al., "CMMLU: Measuring massive multitask language understanding in Chinese"(arXiv:2306.09212;2023 年 6 月 15 日提交;2024 年 1 月 17 日修订;相邻中文多任务评测基准)。
- Dan Hendrycks et al., "Measuring Massive Multitask Language Understanding"(arXiv:2009.03300;MMLU 论文;57-task multitask benchmark context)。
- Wikimedia Commons, "File:TsinghuaUniversityGate.JPG"(文章图片所用清华旧校门真实照片的来源页)。