▰AI 求职面经库

← 返回题库

训练与微调困难

预训练数据清洗流程？为什么去重和质量过滤重要？

#数据清洗#去重#质量过滤#数据配比

题目

“数据决定模型上限，算法只是逼近这个上限。“请说明大模型预训练数据清洗的典型流程，以及去重、质量过滤的重要性。

参考答案

预训练数据规模通常达万亿 token，质量直接决定模型能力。典型清洗流程：

1. 采集与基础过滤

来源：Common Crawl、GitHub、书籍、维基、论文、代码、对话数据等。
语言识别、URL 过滤（去黄赌毒）、HTML 解析提取正文。

2. 去重（Deduplication，关键）

为何重要：重复数据会让模型”记住”而非”学会”，导致：
- 记忆效应（逐字背诵训练文本，泛化差）
- 评测污染（测试集混入训练集，分数虚高）
- 算力浪费（重复样本等效多次训练同例）
方法：
- 精确去重：hash 匹配（MD5/SHA）。
- 模糊去重：MinHash + LSH（局部敏感哈希），找近似重复。
- 文档级 + 段落级 + n-gram 级多粒度去重。

3. 质量过滤

启发式规则：长度、词频、特殊符号比例、语言模型困惑度（用小模型过滤高 PPL 低质文本）。
分类器过滤：训一个”高质量 vs 低质量”分类器（如 fastText），用维基/书籍为正例、随机网页为负例。
安全过滤：去暴力、色情、PII（个人敏感信息）。

4. 数据配比（Mixing）

不同来源数据按比例混合：网页（广度）、书籍（深度）、代码（推理）、学术（专业知识）、对话（指令）。
配比决定模型能力倾向：多代码 → 强推理，多对话 → 强指令遵循。
常见比例：网页 50–60%、书籍 15–20%、代码 10–20%、其他 10%。
配比需随训练阶段调整（如后期加指令数据）。

5. 分词与课程

用 BPE/SentencePiece 训分词器，词表 6.4 万–15 万。
课程学习（curriculum）：从易到难、从短到长逐步训练。

面试加分点：

引用”Chinchilla 最优”指出数据量与参数需匹配，但质量比数量更重要（Phi 系列用高质量数据打破 Scaling Law）。
去重是”免费午餐”——去重后数据量略减但模型更强，是性价比最高的清洗步骤。
数据配比是”玄学但有原则”——需大量消融实验，是各家大厂的核心 know-how。

出处：CSDN《2026 大模型面试圣经：预训练全流程深度解析》。

内容来源

整理自 CSDN《2026 大模型面试圣经：预训练全流程深度解析》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。