题目
大模型量化有哪些主流方法?INT8 与 INT4 量化的精度损失与收益如何权衡?
参考答案
量化(Quantization):把模型权重/激活从 FP16 映射到低精度(INT8/INT4),以显存换速度、以精度换成本。
按时机分:
- PTQ(训练后量化):直接对已训好的模型量化,无需再训练。主流方案:GPTQ、AWQ、SmoothQuant。
- QAT(量化感知训练):训练时模拟量化误差,精度更高但成本大。
主流方法对比:
| 方法 | 思路 | 特点 |
|---|---|---|
| GPTQ | 基于二阶信息(Hessian)逐层量化权重 | 压缩比高,INT4 损失小,量化慢 |
| AWQ | 识别”重要权重”(激活大的通道)予以保护 | 速度快、精度好,广泛用于 vLLM |
| SmoothQuant | 把激活的难度平滑迁移到权重 | 解决激活异常值,适合 W8A8 |
| bitsandbytes | 简单 NF4/INT8 量化 | 易用,常配合 QLoRA 微调 |
精度损失经验值(以 7B 模型为例):
- INT8(W8A16):精度损失通常 < 1%,几乎无感,显存减半,是”免费午餐”。
- INT4(W4A16):精度损失约 1–3%,显存降至 1/4,需选好方法(AWQ/GPTQ), careless 量化掉点明显。
- W4A4(权重激活都 4bit):损失较大,需 QAT 或特殊设计。
收益:
- 显存下降:直接降低部署门槛(7B INT4 可跑在 8GB 显卡)。
- 速度提升:内存带宽是推理瓶颈,低精度减少访存,吞吐显著提升。
- 成本:结合 vLLM 等推理引擎,可降本 50–70%。
出处:AI Infra 面经(头条《别只盯着大模型了,AI Infra 才是 2026 最值钱的技能》)、推理部署文章。
内容来源
整理自 AI Infra 面经与推理部署文章
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。