▰AI 求职面经库

← 返回题库

训练与微调中等

模型评测基准有哪些？数据污染如何识别？

#评测基准#MMLU#数据污染#内部评测

题目

请说明主流大模型评测基准及其适用范围，并解释数据污染问题与识别方法。

参考答案

主流评测基准：

基准	评测维度	形式
MMLU	多学科知识（57 个科目）	多选题
CMMLU / C-Eval	中文综合知识	多选题
GSM8K	小学数学推理	应用题
MATH	高中/竞赛数学	解答题
HumanEval	代码生成（Python）	函数补全+单测
MBPP	代码基础题	函数实现
BBH	综合推理（BIG-Bench Hard）	多任务
HellaSwag / WinoGrande	常识推理	选择
TruthfulQA	抗幻觉/事实性	问答
AlpacaEval / MT-Bench	指令跟随（主观）	LLM 当裁判
Arena Hard	对战 Elo 评分	LLM 裁判

评测方式：

zero-shot / few-shot：是否给示例。
CoT：是否要求思维链。
客观题：exact match / accuracy。
主观题：用更强 LLM 当裁判（GPT-4 as judge）或人工评估。

数据污染（Contamination）：评测集混入训练数据，模型”背答案”而非真正学会，分数虚高。

污染来源：

Common Crawl 抓到评测题原文。
GitHub 上有 HumanEval/MBPP 代码。
论文/博客引用评测题。

识别方法：

n-gram 匹配：检查训练数据是否含评测题的连续 n-gram（如 10-gram）。
重写评测题：换个问法/数字，看分数是否骤降——降得越多说明越依赖记忆。
对比开闭卷：模型在”提示这是考试”vs”正常问”下表现差异。
时序切分：评测集只用训练截止后的新题（如 LiveBench 持续更新）。
私有评测集：不公开的内部题库，无法被爬。

工程实践：

大厂都有内部私有评测集，公开基准只作参考。
上线前对比”通用能力是否下降”用 MMLU/GSM8K，对比”指令跟随”用 MT-Bench。
评测要 run 多次取平均（采样有方差），用统一 prompt 模板避免提示词影响。

面试加分点：

指出公开榜单普遍注水——数据污染 + 选择性报告 + 调 prompt，故大厂重内部评测。
LiveBench、FreshBench 等持续更新基准是抗污染的新方向。
评测本身是难题：“测什么、怎么测、信不信”三问同等重要。

出处：HELM/MMLU 论文、大模型评测面经。

内容来源

整理自大模型评测面经与 HELM/MMLU 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。