基础理论中等

为什么现代大模型都用 Decoder-only 架构？

#Decoder-only#架构对比#Scaling Law#训练效率

题目

现代主流大模型（GPT、LLaMA、Qwen、DeepSeek 等）几乎清一色采用 Decoder-only 架构，而非常初代 Transformer 的 Encoder-Decoder 或 BERT 的 Encoder-only。请说明原因。

三种架构对比：

Decoder-only 胜出的核心原因：

训练效率最高：每个 token 一次前向即可参与预测（用前面所有 token 预测自己），样本利用率高。Encoder 的 MLM 只有 15% token 被预测，样本效率低。
Scaling Law 友好：研究表明在等计算预算下，Decoder-only 的 loss 下降最陡，扩展性最好。Scaling Law 主要在 Decoder-only 上验证。
统一架构 + 任务无关：自回归生成可统一所有任务（对话、翻译、摘要、推理都化为”续写”），无需为不同任务设计头。
zero-shot/few-shot 涌现：Decoder-only 在规模放大后涌现出指令遵循与上下文学习能力，Encoder-only 不具备。
工程实现简单：单向掩码实现简单，KV Cache 推理友好。

理论解释（0/1 损失观点）：Decoder-only 的因果掩码让表征学习更难（每个 token 只能看到前文），但这种”难”反而逼迫模型学到更通用的表示，泛化更好——类似”难样本训练”效应。

面试加分点：

能指出 Encoder-Decoder 在翻译等 Seq2Seq 任务上仍有优势，但通用大模型选 Decoder-only 是 Scaling Law 驱动的工程选择。
T5（Encoder-Decoder）也曾证明强，但被 Decoder-only 在规模放大后超越，体现”统一架构 + 大规模”的胜利。
MLA、GQA 等创新都是在 Decoder-only 基础上优化，进一步巩固其地位。

出处：CSDN《面试官问我:大模型为何都用 Decoder only 架构》、《【AI大模型面试真题】大模型为什么都倾向于 decoder-only》。

内容来源

整理自 CSDN《面试官问我：大模型为何都用 Decoder only 架构》及《【AI大模型面试真题】大模型为什么都倾向于 decoder-only》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。