训练与微调困难

QLoRA 与 AdaLoRA 原理？与 LoRA 有何不同？

#QLoRA#AdaLoRA#4bit 量化#动态秩分配

题目

请说明 QLoRA 与 AdaLoRA 各自对 LoRA 做了哪些改进，适用场景有何不同。

回顾 LoRA：冻结原权重 $W$ ，加可训练低秩矩阵 $BA$ （ $B$ 初始化为 0、 $A$ 高斯初始化），仅训 $A$ 、 $B$ 。

QLoRA（Quantized LoRA，Dettmers 2023）：

核心创新 = 4-bit 量化基座 + LoRA 微调，让 65B 模型能在单张 48GB 显卡上微调。

效果：质量接近全参 BF16 微调，显存降至 1/4 以下；7B 模型 6GB、65B 模型 48GB 可训。

AdaLoRA（Adaptive LoRA）：

核心创新 = 动态分配秩 $r$ ，让重要层用更大秩、次要层用更小秩。

LoRA 给所有层统一秩 $r$ ，但不同层对任务的贡献不同，浪费预算。
AdaLoRA 把 $B$ 、 $A$ 之间插入一个对角矩阵 $P$ ： $\Delta W = B P A$ ， $P$ 的对角元素反映该”虚拟奇异值”的重要性。
训练中按重要性评分动态修剪：不重要的奇异值置 0（等效降秩），把预算让给重要层。
类似 SVD 的思想，让 LoRA 的秩自适应分配。

对比表：

方法	基座	秩	显存（7B）	质量	适合
LoRA	FP16/BF16	固定	~16GB	良	通用
QLoRA	4-bit NF4	固定	~6GB	接近全参	消费级显卡
AdaLoRA	FP16/BF16	动态	~16GB	略优于 LoRA	秩预算紧

面试加分点：

出处：CSDN《【AI产品经理面试必看】大模型面试 SFT 必考》、QLoRA 论文《QLoRA: Efficient Finetuning of Quantized LLMs》。

内容来源

整理自 CSDN《大模型面试：SFT 必考》及 QLoRA 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。