← 返回题库
传统算法中等

梯度下降与常见优化器对比?

#梯度下降#SGD/Momentum#Adam#学习率

题目

请说明梯度下降的基本原理,并对比 SGD、Momentum、RMSProp、Adam 等常见优化器。

参考答案

梯度下降:沿损失函数梯度的反方向更新参数,逐步逼近最小值:

θt+1=θtηL(θt)\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)

按批次分:BGD(全量)、SGD(单样本)、Mini-batch(小批量,最常用)。

优化器对比

优化器核心思想优点缺点
SGD纯梯度更新简单、收敛解泛化好收敛慢、易震荡、卡鞍点
Momentum累积历史梯度方向(动量)加速收敛、抑制震荡需调动量系数
NAG先按动量”前瞻”再算梯度比 Momentum 更准实现略复杂
AdaGrad按参数自适应学习率(累积平方梯度)稀疏特征友好学习率单调衰减,后期过小
RMSProp指数移动平均平方梯度解决 AdaGrad 衰减过快仍需手调全局学习率
AdamMomentum + RMSProp(一阶矩+二阶矩)收敛快、自适应、默认首选泛化有时不如 SGD,内存略大
AdamWAdam + 解耦权重衰减大模型训练标配(权重衰减与梯度更新解耦)

关键概念

  • 学习率:最重要的超参。过大震荡发散,过慢停滞。常用 warmup + cosine decay 调度。
  • 鞍点/局部最优:高维空间局部最优少,鞍点才是主要障碍,带动量的优化器能逃逸。
  • 权重衰减:L2 正则的优化器实现,防止过拟合。

实践建议

  • 深度学习/大模型训练默认 AdamW + warmup + cosine 调度。
  • 计算机视觉某些任务用 SGD + Momentum 泛化更佳。
  • 大批量训练常配合 LARS/LAMB 等层自适应优化器。

出处:深度学习算法工程师面试题及实战案例(道客巴巴《2026 机器学习算法工程师深度学习面试题及实战案例含答案》)。

内容来源

整理自深度学习算法工程师面试题及实战案例

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。