题目
现代主流大模型(GPT、LLaMA、Qwen、DeepSeek 等)几乎清一色采用 Decoder-only 架构,而非常初代 Transformer 的 Encoder-Decoder 或 BERT 的 Encoder-only。请说明原因。
参考答案
三种架构对比:
| 架构 | 代表 | 注意力 | 训练目标 | 适合 |
|---|---|---|---|---|
| Encoder-only | BERT | 双向 | MLM 完形填空 | 理解类(分类、检索) |
| Encoder-Decoder | T5、原始 Transformer | 编码双向+解码因果 | Seq2Seq | 翻译、摘要 |
| Decoder-only | GPT、LLaMA | 因果(单向) | 自回归下一 token 预测 | 生成 + 通用 |
Decoder-only 胜出的核心原因:
- 训练效率最高:每个 token 一次前向即可参与预测(用前面所有 token 预测自己),样本利用率高。Encoder 的 MLM 只有 15% token 被预测,样本效率低。
- Scaling Law 友好:研究表明在等计算预算下,Decoder-only 的 loss 下降最陡,扩展性最好。Scaling Law 主要在 Decoder-only 上验证。
- 统一架构 + 任务无关:自回归生成可统一所有任务(对话、翻译、摘要、推理都化为”续写”),无需为不同任务设计头。
- zero-shot/few-shot 涌现:Decoder-only 在规模放大后涌现出指令遵循与上下文学习能力,Encoder-only 不具备。
- 工程实现简单:单向掩码实现简单,KV Cache 推理友好。
理论解释(0/1 损失观点):Decoder-only 的因果掩码让表征学习更难(每个 token 只能看到前文),但这种”难”反而逼迫模型学到更通用的表示,泛化更好——类似”难样本训练”效应。
面试加分点:
- 能指出 Encoder-Decoder 在翻译等 Seq2Seq 任务上仍有优势,但通用大模型选 Decoder-only 是 Scaling Law 驱动的工程选择。
- T5(Encoder-Decoder)也曾证明强,但被 Decoder-only 在规模放大后超越,体现”统一架构 + 大规模”的胜利。
- MLA、GQA 等创新都是在 Decoder-only 基础上优化,进一步巩固其地位。
出处:CSDN《面试官问我:大模型为何都用 Decoder only 架构》、《【AI大模型面试真题】大模型为什么都倾向于 decoder-only》。
内容来源
整理自 CSDN《面试官问我:大模型为何都用 Decoder only 架构》及《【AI大模型面试真题】大模型为什么都倾向于 decoder-only》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。