Dynamic Distillation and Gradient Consistency for Robust Long-Tailed Incremental Learning¶

作者: Taigo Sakai, Kazuhiro Hotta 发表: 2026-05-05

摘要¶

长尾类别增量学习（Long-tailed Class Incremental Learning, LT-CIL）处理从类别分布不平衡的数据集中顺序学习新类别的任务。这一场景强化了持续学习中固有的灾难性遗忘问题，同时面临少数类欠学习和多数类过拟合的双重挑战。

针对这些问题，本文提出两个主要技术： 1. 梯度一致性正则化（Gradient Consistency Regularization）: 利用梯度的移动平均值来抑制突变波动，稳定训练过程 2. 动态蒸馏损失权重调整: 通过归一化熵衡量类别不平衡程度，动态调整蒸馏损失权重，在保留旧知识和获取新信息之间建立最佳平衡

在 CIFAR-100-LT、ImageNetSubset-LT 和 Food101-LT 基准上的实验表明，该方法实现了最高 5.0% 的一致性精度提升。在具有挑战性的"In-ordered"设置（任务从多数类向少数类推进）中展现出特别显著的鲁棒性，在不利学习动态下有效缓解遗忘。

核心贡献¶

梯度一致性正则化: 利用梯度移动平均抑制训练过程突变，为持续学习提供更稳定的梯度更新方向
自适应蒸馏权重: 基于归一化熵动态衡量类别不平衡程度，建立保留旧知识与获取新知识的自适应平衡机制
针对长尾分布的增量学习: 首次系统处理类别不平衡与灾难性遗忘的联合优化问题
In-ordered 设置验证: 证明该方法在极端不平衡场景（多数类→少数类）下的鲁棒性

为什么重要¶

现实世界的学习任务普遍面临类别不平衡问题：多数类（常见样本）主导梯度更新，少数类（稀缺样本）容易被遗忘。传统的增量学习方法在没有类别不平衡时表现良好，但在长尾分布下会快速退化。

本文的重要意义在于： - 揭示了类别不平衡与灾难性遗忘之间的耦合关系 - 提供了不需要额外计算开销的实用解决方案 - 在医疗诊断、故障检测等实际应用中具有重要价值

与端侧/移动端相关性¶

资源受限的增量学习: 移动端 AI 应用需要处理真实世界的类别不平衡数据（如罕见疾病、特殊故障模式）
在线学习场景: 移动端持续学习系统在边缘设备上无法存储大量历史数据，梯度一致性正则化提供了一种无需 replay buffer 的持续学习策略
隐私保护学习: 动态蒸馏权重调整可以在不完全重放旧数据的情况下保留知识，有助于保护隐私

关键词: 长尾分布、增量学习、灾难性遗忘、梯度一致性、知识蒸馏、类别不平衡