题目
请说明主流大模型评测基准及其适用范围,并解释数据污染问题与识别方法。
参考答案
主流评测基准:
| 基准 | 评测维度 | 形式 |
|---|---|---|
| MMLU | 多学科知识(57 个科目) | 多选题 |
| CMMLU / C-Eval | 中文综合知识 | 多选题 |
| GSM8K | 小学数学推理 | 应用题 |
| MATH | 高中/竞赛数学 | 解答题 |
| HumanEval | 代码生成(Python) | 函数补全+单测 |
| MBPP | 代码基础题 | 函数实现 |
| BBH | 综合推理(BIG-Bench Hard) | 多任务 |
| HellaSwag / WinoGrande | 常识推理 | 选择 |
| TruthfulQA | 抗幻觉/事实性 | 问答 |
| AlpacaEval / MT-Bench | 指令跟随(主观) | LLM 当裁判 |
| Arena Hard | 对战 Elo 评分 | LLM 裁判 |
评测方式:
- zero-shot / few-shot:是否给示例。
- CoT:是否要求思维链。
- 客观题:exact match / accuracy。
- 主观题:用更强 LLM 当裁判(GPT-4 as judge)或人工评估。
数据污染(Contamination):评测集混入训练数据,模型”背答案”而非真正学会,分数虚高。
污染来源:
- Common Crawl 抓到评测题原文。
- GitHub 上有 HumanEval/MBPP 代码。
- 论文/博客引用评测题。
识别方法:
- n-gram 匹配:检查训练数据是否含评测题的连续 n-gram(如 10-gram)。
- 重写评测题:换个问法/数字,看分数是否骤降——降得越多说明越依赖记忆。
- 对比开闭卷:模型在”提示这是考试”vs”正常问”下表现差异。
- 时序切分:评测集只用训练截止后的新题(如 LiveBench 持续更新)。
- 私有评测集:不公开的内部题库,无法被爬。
工程实践:
- 大厂都有内部私有评测集,公开基准只作参考。
- 上线前对比”通用能力是否下降”用 MMLU/GSM8K,对比”指令跟随”用 MT-Bench。
- 评测要 run 多次取平均(采样有方差),用统一 prompt 模板避免提示词影响。
面试加分点:
- 指出公开榜单普遍注水——数据污染 + 选择性报告 + 调 prompt,故大厂重内部评测。
- LiveBench、FreshBench 等持续更新基准是抗污染的新方向。
- 评测本身是难题:“测什么、怎么测、信不信”三问同等重要。
出处:HELM/MMLU 论文、大模型评测面经。
内容来源
整理自大模型评测面经与 HELM/MMLU 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。