前沿专题困难

Scaling Law 是什么？Chinchilla 定律改变了什么？

#Scaling Law#Chinchilla#计算最优#数据配比

题目

请说明 Scaling Law 的核心结论，以及 Chinchilla 定律相比早期 Kaplan 定律的改进，对大模型训练实践有何影响。

Scaling Law（缩放定律）：描述模型性能（loss）与模型参数量 $N$ 、数据量 $D$ 、计算量 $C$ 之间的幂律关系。

Kaplan 定律（OpenAI 2020）核心结论：

Chinchilla 定律（DeepMind 2022）的修正：

对实践的影响：

数据量被重视：Chinchilla 后，业界意识到”数据不够的巨模型不如数据充足的中模型”。Chinchilla 70B 用 1.4T token 训练，性能超过用了 300B token 的 GPT-3 175B。
训练 token 数飙升：LLaMA-2 用 2T token，LLaMA-3 用 15T+ token，远超 Chinchilla 最优——为追求极致性能主动”过度训练”小模型。
小模型复兴：在充足数据下，7B–13B 模型性能可媲美早期 100B+，且推理便宜得多（如 LLaMA-3 8B、Qwen2 7B）。
数据质量 > 数量：后续研究（如 Phi 系列）显示高质量数据可进一步打破 Scaling Law 的”数据量”约束。

关键公式：

C \approx 6ND, \quad L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}

其中 $E$ 是不可约损失， $\alpha \approx 0.34, \beta \approx 0.28$ （Chinchilla 拟合值）。

面试加分点：

能口算”训 10B 模型需多少 token”： $10\text{B} \times 20 = 200\text{B}$ token（Chinchilla 最优）。
指出现代实践偏离 Chinchilla 最优：LLaMA-3 8B 用 15T token 是”过度训练”，因推理成本远高于训练成本，值得用更多训练算力换更小推理模型。
Scaling Law 不仅适用语言，也适用多模态与跨模态。

出处：CSDN《AI 大模型面试时被问到 Scaling Law，怎么答？》、Chinchilla 论文《Training Compute-Optimal Large Language Models》。

内容来源

整理自 CSDN《AI 大模型面试时被问到 Scaling Law，怎么答？》及 Chinchilla 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。