▰AI 求职面经库

← 返回题库

推理与部署中等

大模型量化有哪些方法？INT8/INT4 的精度损失如何？

#量化方法#AWQ/GPTQ#精度损失#推理加速

题目

大模型量化有哪些主流方法？INT8 与 INT4 量化的精度损失与收益如何权衡？

参考答案

量化（Quantization）：把模型权重/激活从 FP16 映射到低精度（INT8/INT4），以显存换速度、以精度换成本。

按时机分：

PTQ（训练后量化）：直接对已训好的模型量化，无需再训练。主流方案：GPTQ、AWQ、SmoothQuant。
QAT（量化感知训练）：训练时模拟量化误差，精度更高但成本大。

主流方法对比：

方法	思路	特点
GPTQ	基于二阶信息（Hessian）逐层量化权重	压缩比高，INT4 损失小，量化慢
AWQ	识别”重要权重”（激活大的通道）予以保护	速度快、精度好，广泛用于 vLLM
SmoothQuant	把激活的难度平滑迁移到权重	解决激活异常值，适合 W8A8
bitsandbytes	简单 NF4/INT8 量化	易用，常配合 QLoRA 微调

精度损失经验值（以 7B 模型为例）：

INT8（W8A16）：精度损失通常 < 1%，几乎无感，显存减半，是”免费午餐”。
INT4（W4A16）：精度损失约 1–3%，显存降至 1/4，需选好方法（AWQ/GPTQ）， careless 量化掉点明显。
W4A4（权重激活都 4bit）：损失较大，需 QAT 或特殊设计。

收益：

显存下降：直接降低部署门槛（7B INT4 可跑在 8GB 显卡）。
速度提升：内存带宽是推理瓶颈，低精度减少访存，吞吐显著提升。
成本：结合 vLLM 等推理引擎，可降本 50–70%。

出处：AI Infra 面经（头条《别只盯着大模型了，AI Infra 才是 2026 最值钱的技能》）、推理部署文章。

内容来源

整理自 AI Infra 面经与推理部署文章

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。