DASH-Q：基于稳定对角曲率估计的鲁棒超低位后训练量化¶

核心问题¶

大语言模型（LLM）的规模使得部署极具挑战性。后训练量化（PTQ）通过利用小型校准集减少内存占用而无需重新训练。然而，现有基于 Hessian 的 PTQ 方法（通过跨通道依赖关系补偿量化误差）在超低位宽（如 2-bit）下严重退化，原因在于有限校准数据导致的曲率估计噪声。

方法/架构¶

DASH-Q（Diagonal Adaptive Stable Hessian Quantization）框架的核心创新：

对角 Hessian 近似：摒弃噪声严重的跨通道依赖关系，转而使用对角 Hessian 矩阵近似，大幅降低估计方差
迭代加权最小二乘法（Iterative Weighted Least Squares）：通过迭代优化逐步精细化量化参数估计
噪声过滤机制：主动丢弃不可靠的依赖关系，保留稳定的曲率信息

该方法的核心思想是：在超低位宽下，跨通道的 Hessian 依赖关系估计噪声远大于信号，不如直接丢弃这些依赖关系，专注于每个通道独立的稳定曲率估计。

实验结果/关键数据¶

在 LLM 超低位量化（2-bit 及以下）场景中，DASH-Q 相比现有 Hessian-based PTQ 方法展现出更强的鲁棒性
通过丢弃噪声依赖关系，避免了低位宽下传统方法的性能崩溃
校准数据需求更低，适合实际部署场景

关键洞察¶

少即是多（Less is More）：在超低位量化中，减少参数间依赖关系的考虑反而能提高量化质量——这是因为噪声的负面影响超过了依赖信息的收益
曲率估计的稳定性至关重要：量化补偿的精度不取决于估计的复杂度，而取决于估计的稳定性
对角近似的实际价值：从完整 Hessian 到对角 Hessian 的简化不是妥协，而是在数据受限场景下的最优选择

为什么重要¶

超低位量化（2-bit 及以下）是将 LLM 部署到手机、IoT 设备等资源极度受限场景的关键技术。DASH-Q 提供了一种在有限校准数据下依然鲁棒的量化方案，这对于实际的端侧部署尤为重要——开发者通常只有少量代表性数据。该方法与 KV Cache 量化、投机解码等技术互补，是构建完整的端侧 LLM 推理栈的重要组成部分。

关联¶

[[septq-post-training-quantization]] — SEPTQ 简单有效的后训练量化范式
[[int4-quantization-collapse]] — FP32 收敛后 INT4 量化的失败模式分析
[[kl-quantization-ssm-transformer]] — 基于 KL 敏感性的混合精度量化
[[codebook-init-extreme-llm-quantization]] — 极端量化下的码本初始化方法
[[kv-cache-quantization-ondevice]] — 端侧 LLM 的 KV Cache 量化策略
[[sustainability-ondevice-intelligence]] — 端侧智能的性能-能耗-隐私权衡