DASH-Q:基于稳定对角曲率估计的鲁棒超低位后训练量化¶
核心问题¶
大语言模型(LLM)的规模使得部署极具挑战性。后训练量化(PTQ)通过利用小型校准集减少内存占用而无需重新训练。然而,现有基于 Hessian 的 PTQ 方法(通过跨通道依赖关系补偿量化误差)在超低位宽(如 2-bit)下严重退化,原因在于有限校准数据导致的曲率估计噪声。
方法/架构¶
DASH-Q(Diagonal Adaptive Stable Hessian Quantization)框架的核心创新:
- 对角 Hessian 近似:摒弃噪声严重的跨通道依赖关系,转而使用对角 Hessian 矩阵近似,大幅降低估计方差
- 迭代加权最小二乘法(Iterative Weighted Least Squares):通过迭代优化逐步精细化量化参数估计
- 噪声过滤机制:主动丢弃不可靠的依赖关系,保留稳定的曲率信息
该方法的核心思想是:在超低位宽下,跨通道的 Hessian 依赖关系估计噪声远大于信号,不如直接丢弃这些依赖关系,专注于每个通道独立的稳定曲率估计。
实验结果/关键数据¶
- 在 LLM 超低位量化(2-bit 及以下)场景中,DASH-Q 相比现有 Hessian-based PTQ 方法展现出更强的鲁棒性
- 通过丢弃噪声依赖关系,避免了低位宽下传统方法的性能崩溃
- 校准数据需求更低,适合实际部署场景
关键洞察¶
- 少即是多(Less is More):在超低位量化中,减少参数间依赖关系的考虑反而能提高量化质量——这是因为噪声的负面影响超过了依赖信息的收益
- 曲率估计的稳定性至关重要:量化补偿的精度不取决于估计的复杂度,而取决于估计的稳定性
- 对角近似的实际价值:从完整 Hessian 到对角 Hessian 的简化不是妥协,而是在数据受限场景下的最优选择
为什么重要¶
超低位量化(2-bit 及以下)是将 LLM 部署到手机、IoT 设备等资源极度受限场景的关键技术。DASH-Q 提供了一种在有限校准数据下依然鲁棒的量化方案,这对于实际的端侧部署尤为重要——开发者通常只有少量代表性数据。该方法与 KV Cache 量化、投机解码等技术互补,是构建完整的端侧 LLM 推理栈的重要组成部分。
关联¶
- [[septq-post-training-quantization]] — SEPTQ 简单有效的后训练量化范式
- [[int4-quantization-collapse]] — FP32 收敛后 INT4 量化的失败模式分析
- [[kl-quantization-ssm-transformer]] — 基于 KL 敏感性的混合精度量化
- [[codebook-init-extreme-llm-quantization]] — 极端量化下的码本初始化方法
- [[kv-cache-quantization-ondevice]] — 端侧 LLM 的 KV Cache 量化策略
- [[sustainability-ondevice-intelligence]] — 端侧智能的性能-能耗-隐私权衡