跳转至

DASH-Q:基于稳定对角曲率估计的鲁棒超低位后训练量化

核心问题

大语言模型(LLM)的规模使得部署极具挑战性。后训练量化(PTQ)通过利用小型校准集减少内存占用而无需重新训练。然而,现有基于 Hessian 的 PTQ 方法(通过跨通道依赖关系补偿量化误差)在超低位宽(如 2-bit)下严重退化,原因在于有限校准数据导致的曲率估计噪声。

方法/架构

DASH-Q(Diagonal Adaptive Stable Hessian Quantization)框架的核心创新:

  • 对角 Hessian 近似:摒弃噪声严重的跨通道依赖关系,转而使用对角 Hessian 矩阵近似,大幅降低估计方差
  • 迭代加权最小二乘法(Iterative Weighted Least Squares):通过迭代优化逐步精细化量化参数估计
  • 噪声过滤机制:主动丢弃不可靠的依赖关系,保留稳定的曲率信息

该方法的核心思想是:在超低位宽下,跨通道的 Hessian 依赖关系估计噪声远大于信号,不如直接丢弃这些依赖关系,专注于每个通道独立的稳定曲率估计。

实验结果/关键数据

  • 在 LLM 超低位量化(2-bit 及以下)场景中,DASH-Q 相比现有 Hessian-based PTQ 方法展现出更强的鲁棒性
  • 通过丢弃噪声依赖关系,避免了低位宽下传统方法的性能崩溃
  • 校准数据需求更低,适合实际部署场景

关键洞察

  1. 少即是多(Less is More):在超低位量化中,减少参数间依赖关系的考虑反而能提高量化质量——这是因为噪声的负面影响超过了依赖信息的收益
  2. 曲率估计的稳定性至关重要:量化补偿的精度不取决于估计的复杂度,而取决于估计的稳定性
  3. 对角近似的实际价值:从完整 Hessian 到对角 Hessian 的简化不是妥协,而是在数据受限场景下的最优选择

为什么重要

超低位量化(2-bit 及以下)是将 LLM 部署到手机、IoT 设备等资源极度受限场景的关键技术。DASH-Q 提供了一种在有限校准数据下依然鲁棒的量化方案,这对于实际的端侧部署尤为重要——开发者通常只有少量代表性数据。该方法与 KV Cache 量化、投机解码等技术互补,是构建完整的端侧 LLM 推理栈的重要组成部分。

关联

  • [[septq-post-training-quantization]] — SEPTQ 简单有效的后训练量化范式
  • [[int4-quantization-collapse]] — FP32 收敛后 INT4 量化的失败模式分析
  • [[kl-quantization-ssm-transformer]] — 基于 KL 敏感性的混合精度量化
  • [[codebook-init-extreme-llm-quantization]] — 极端量化下的码本初始化方法
  • [[kv-cache-quantization-ondevice]] — 端侧 LLM 的 KV Cache 量化策略
  • [[sustainability-ondevice-intelligence]] — 端侧智能的性能-能耗-隐私权衡