▰AI 求职面经库

← 返回题库

训练与微调中等

灾难遗忘是什么？微调如何避免能力丢失？

#灾难遗忘#微调副作用#数据混合#回放

题目

对大模型做领域微调时常出现”学了新知识、丢了旧能力”的现象。请说明原因与缓解手段。

参考答案

灾难遗忘（Catastrophic Forgetting）：模型在新任务/新数据上微调后，原有通用能力（指令遵循、推理、其他领域知识）显著下降。

成因：

神经网络参数共享，新任务的梯度更新会覆盖原任务学到的权重模式。
微调数据分布与预训练差异越大，遗忘越严重（如纯领域文本微调会让模型忘掉通用对话能力）。
全参微调比参数高效微调（LoRA）遗忘更严重——动的参数越多，覆盖越广。

典型表现：

领域微调后模型只会答领域问题，闲聊/通用问答退化。
多轮指令微调后早期学会的格式被后期数据”冲掉”。
SFT 后推理能力下降（“对齐税”的一种）。

缓解手段：

数据混合（Data Mixing）：微调数据中混入一定比例（10–30%）的通用数据（如预训练样本、通用指令集），保持原分布。最简单有效。
回放（Replay）：把模型原能力强相关的样本定期混入新训练 batch，类似”复习”。
参数高效微调：用 LoRA/QLoRA 只调少量参数，原权重冻结，从结构上限制遗忘。
学习率与小步长：用较小学习率、少 epoch，避免大幅改写权重。
EWC（Elastic Weight Consolidation）：对重要参数加正则，限制其大幅变动（来自持续学习领域）。
课程学习：从接近原分布的数据逐步过渡到新领域，降低冲击。
多任务联合训练：把新旧任务一起训而非顺序微调，从根本上避免遗忘。

面试加分点：

指出 LoRA 天然抗遗忘（冻结基座），是领域微调的首选。
“对齐税”是 SFT/RLHF 后的特殊遗忘——模型变安全听话但推理略降，需用通用数据混合 + 评测监控缓解。
工程上最实用的是 数据混合 + LoRA + 评测对比：微调前后跑通用基准（MMLU/GSM8K），发现下降就调比例。

出处：持续学习与微调面经、EWC 论文。

内容来源

整理自持续学习与微调面经

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。