题目
请说明 Scaling Law 的核心结论,以及 Chinchilla 定律相比早期 Kaplan 定律的改进,对大模型训练实践有何影响。
参考答案
Scaling Law(缩放定律):描述模型性能(loss)与模型参数量 、数据量 、计算量 之间的幂律关系。
Kaplan 定律(OpenAI 2020)核心结论:
- 计算量 (Decoder-only 模型每 token 前向+反向约 6 倍参数 FLOPs)。
- 性能主要与 呈幂律,与模型结构(层数/宽度)基本无关。
- 建议:固定计算预算下,优先扩参数 ,数据 可相对少。结论是”模型大、数据少”。
Chinchilla 定律(DeepMind 2022)的修正:
- 重新实验后发现 Kaplan 高估了参数的重要性、低估了数据的重要性。
- 计算最优配比应是 与 同步增长,比例约 (每参数约 20 个 token)。
- 即:给定计算预算,模型与数据应等比例放大,而非一味堆参数。
对实践的影响:
- 数据量被重视:Chinchilla 后,业界意识到”数据不够的巨模型不如数据充足的中模型”。Chinchilla 70B 用 1.4T token 训练,性能超过用了 300B token 的 GPT-3 175B。
- 训练 token 数飙升:LLaMA-2 用 2T token,LLaMA-3 用 15T+ token,远超 Chinchilla 最优——为追求极致性能主动”过度训练”小模型。
- 小模型复兴:在充足数据下,7B–13B 模型性能可媲美早期 100B+,且推理便宜得多(如 LLaMA-3 8B、Qwen2 7B)。
- 数据质量 > 数量:后续研究(如 Phi 系列)显示高质量数据可进一步打破 Scaling Law 的”数据量”约束。
关键公式:
其中 是不可约损失,(Chinchilla 拟合值)。
面试加分点:
- 能口算”训 10B 模型需多少 token”: token(Chinchilla 最优)。
- 指出现代实践偏离 Chinchilla 最优:LLaMA-3 8B 用 15T token 是”过度训练”,因推理成本远高于训练成本,值得用更多训练算力换更小推理模型。
- Scaling Law 不仅适用语言,也适用多模态与跨模态。
出处:CSDN《AI 大模型面试时被问到 Scaling Law,怎么答?》、Chinchilla 论文《Training Compute-Optimal Large Language Models》。
内容来源
整理自 CSDN《AI 大模型面试时被问到 Scaling Law,怎么答?》及 Chinchilla 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。