题目
“数据决定模型上限,算法只是逼近这个上限。“请说明大模型预训练数据清洗的典型流程,以及去重、质量过滤的重要性。
参考答案
预训练数据规模通常达万亿 token,质量直接决定模型能力。典型清洗流程:
1. 采集与基础过滤
- 来源:Common Crawl、GitHub、书籍、维基、论文、代码、对话数据等。
- 语言识别、URL 过滤(去黄赌毒)、HTML 解析提取正文。
2. 去重(Deduplication,关键)
- 为何重要:重复数据会让模型”记住”而非”学会”,导致:
- 记忆效应(逐字背诵训练文本,泛化差)
- 评测污染(测试集混入训练集,分数虚高)
- 算力浪费(重复样本等效多次训练同例)
- 方法:
- 精确去重:hash 匹配(MD5/SHA)。
- 模糊去重:MinHash + LSH(局部敏感哈希),找近似重复。
- 文档级 + 段落级 + n-gram 级多粒度去重。
3. 质量过滤
- 启发式规则:长度、词频、特殊符号比例、语言模型困惑度(用小模型过滤高 PPL 低质文本)。
- 分类器过滤:训一个”高质量 vs 低质量”分类器(如 fastText),用维基/书籍为正例、随机网页为负例。
- 安全过滤:去暴力、色情、PII(个人敏感信息)。
4. 数据配比(Mixing)
- 不同来源数据按比例混合:网页(广度)、书籍(深度)、代码(推理)、学术(专业知识)、对话(指令)。
- 配比决定模型能力倾向:多代码 → 强推理,多对话 → 强指令遵循。
- 常见比例:网页 50–60%、书籍 15–20%、代码 10–20%、其他 10%。
- 配比需随训练阶段调整(如后期加指令数据)。
5. 分词与课程
- 用 BPE/SentencePiece 训分词器,词表 6.4 万–15 万。
- 课程学习(curriculum):从易到难、从短到长逐步训练。
面试加分点:
- 引用”Chinchilla 最优”指出数据量与参数需匹配,但质量比数量更重要(Phi 系列用高质量数据打破 Scaling Law)。
- 去重是”免费午餐”——去重后数据量略减但模型更强,是性价比最高的清洗步骤。
- 数据配比是”玄学但有原则”——需大量消融实验,是各家大厂的核心 know-how。
出处:CSDN《2026 大模型面试圣经:预训练全流程深度解析》。
内容来源
整理自 CSDN《2026 大模型面试圣经:预训练全流程深度解析》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。