跳转至

Dynamic Distillation and Gradient Consistency for Robust Long-Tailed Incremental Learning

作者: Taigo Sakai, Kazuhiro Hotta 发表: 2026-05-05

摘要

长尾类别增量学习(Long-tailed Class Incremental Learning, LT-CIL)处理从类别分布不平衡的数据集中顺序学习新类别的任务。这一场景强化了持续学习中固有的灾难性遗忘问题,同时面临少数类欠学习和多数类过拟合的双重挑战。

针对这些问题,本文提出两个主要技术: 1. 梯度一致性正则化(Gradient Consistency Regularization): 利用梯度的移动平均值来抑制突变波动,稳定训练过程 2. 动态蒸馏损失权重调整: 通过归一化熵衡量类别不平衡程度,动态调整蒸馏损失权重,在保留旧知识和获取新信息之间建立最佳平衡

在 CIFAR-100-LT、ImageNetSubset-LT 和 Food101-LT 基准上的实验表明,该方法实现了最高 5.0% 的一致性精度提升。在具有挑战性的"In-ordered"设置(任务从多数类向少数类推进)中展现出特别显著的鲁棒性,在不利学习动态下有效缓解遗忘。

核心贡献

  1. 梯度一致性正则化: 利用梯度移动平均抑制训练过程突变,为持续学习提供更稳定的梯度更新方向
  2. 自适应蒸馏权重: 基于归一化熵动态衡量类别不平衡程度,建立保留旧知识与获取新知识的自适应平衡机制
  3. 针对长尾分布的增量学习: 首次系统处理类别不平衡与灾难性遗忘的联合优化问题
  4. In-ordered 设置验证: 证明该方法在极端不平衡场景(多数类→少数类)下的鲁棒性

为什么重要

现实世界的学习任务普遍面临类别不平衡问题:多数类(常见样本)主导梯度更新,少数类(稀缺样本)容易被遗忘。传统的增量学习方法在没有类别不平衡时表现良好,但在长尾分布下会快速退化。

本文的重要意义在于: - 揭示了类别不平衡与灾难性遗忘之间的耦合关系 - 提供了不需要额外计算开销的实用解决方案 - 在医疗诊断、故障检测等实际应用中具有重要价值

与端侧/移动端相关性

  1. 资源受限的增量学习: 移动端 AI 应用需要处理真实世界的类别不平衡数据(如罕见疾病、特殊故障模式)
  2. 在线学习场景: 移动端持续学习系统在边缘设备上无法存储大量历史数据,梯度一致性正则化提供了一种无需 replay buffer 的持续学习策略
  3. 隐私保护学习: 动态蒸馏权重调整可以在不完全重放旧数据的情况下保留知识,有助于保护隐私

关键词: 长尾分布、增量学习、灾难性遗忘、梯度一致性、知识蒸馏、类别不平衡