← 返回题库
训练与微调困难

全参数微调需要多少显存?如何估算?

#显存估算#优化器状态#混合精度

题目

如果想在某个模型基础上做全参数微调,究竟需要多少显存?请说明估算依据。

参考答案

核心结论:全参数微调的显存约为模型参数量的 16–20 倍(使用 AdamW + 混合精度)。

估算拆解(以 FP16 混合精度 + AdamW 为例)

组成倍数(相对参数量)说明
模型权重(FP16)前向/反向计算用
梯度(FP16)反向传播产生
主权重(FP32)优化器维护的精度主副本
Adam 一阶矩(FP32)momentum
Adam 二阶矩(FP32)variance
激活值约 2–6×随序列长度/批次增长

合计权重+梯度+优化器 ≈ 16× 参数量,再加激活值。

举例:7B 模型全参微调 ≈ 7B × 16 ≈ 112GB,单卡放不下,需用 DeepSpeed ZeRO-3 / FSDP 分片,或改用 LoRA。

面试加分点

  • 指出激活值随序列长度线性增长,是长上下文微调的显存大头。
  • 给出降显存手段:梯度检查点(gradient checkpointing,以重算换显存)、ZeRO-3 分片、LoRA/QLoRA(参数高效微调可降至 1× 量级)。

出处:CSDN《最新 AI 大模型岗位面试题之 LLM 微调》。

内容来源

整理自 CSDN《最新 AI 大模型岗位面试题之 LLM 微调》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。