Learning to Forget: Continual Learning with Adaptive Weight Decay¶

论文基本信息¶

作者: Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber
arXiv: https://arxiv.org/abs/2604.27063
领域: cs.LG, cs.NE
类别: 记忆压缩 → 选择性遗忘 → 自适应权重衰减

摘要（翻译）¶

具有有限容量的持续学习智能体必须在获取新知识和保留旧知识之间取得平衡。这要求对不再需要的知识进行受控遗忘，以释放容量来学习新知识。权重衰减被视为遗忘机制，可以通过逐渐丢弃存储在权重中的信息来发挥这一作用。然而，固定标量的权重衰减在时间和所有参数上均匀地驱动遗忘，即使某些参数编码了稳定知识而另一些参数跟踪快速变化的目标也不例外。本文提出 Forgetting through Adaptive Decay（FADE），通过近似元梯度下降在线调整每个参数的权重衰减率。本文推导了在线线性设置下的 FADE，并将其应用于神经网络的最末层。实验分析表明，FADE 自动发现不同参数的不同衰减率，补充了步长自适应，并在在线跟踪和流分类问题上持续改进固定权重衰减。

核心贡献¶

FADE 框架：首次提出通过近似元梯度在线学习每个参数的自适应衰减率，而非使用全局固定衰减率。
遗忘作为记忆机制的理论基础：将权重衰减重新解释为遗忘机制，为有限容量智能体的记忆管理提供了新视角。
在线线性设置的完整推导：从理论层面推导了 FADE 在在线学习场景下的收敛性和有效性条件。
实验验证：在在线跟踪和流分类两个任务上验证了 FADE 相比固定权重衰减的一致性改进。
自动发现参数差异化重要性：FADE 自动识别哪些参数编码稳定知识（低衰减）而哪些跟踪时变目标（高衰减）。

研究背景与问题¶

有限容量学习的核心矛盾¶

智能体的记忆容量是有限的，但需要处理的任务是无限的。当学习新任务时，神经网络会倾向于覆盖旧任务的参数——这是灾难性遗忘的根源。

权重衰减作为遗忘机制¶

传统上，权重衰减（weight decay）被用于正则化以防止过拟合。但从记忆管理的角度看，权重衰减实际上是一种选择性遗忘机制： - 权重中存储的信息随着衰减而逐渐被"擦除" - 释放出的容量可以用于编码新知识

现有方法的问题¶

固定标量的权重衰减对所有参数使用相同的衰减率，忽略了： - 参数间的功能差异：有些参数编码的是长期稳定知识（应该低衰减），有些跟踪的是时变信号（可以高衰减） - 时间维度的差异：不同学习阶段的参数重要性不同

为什么重要¶

这是首个从"遗忘"角度重新审视权重衰减的工作，为有限容量智能体的记忆管理提供了精细化的解决方案。

核心方法¶

FADE（Forgetting through Adaptive Decay）¶

核心思想：为每个参数学习独立的衰减率 $\lambda_i$，通过元梯度下降在线更新。

在在线线性模型中，参数更新规则为： $$\theta_i \leftarrow \theta_i - \eta \nabla_{\theta_i} L - \lambda_i \theta_i$$

其中 $\lambda_i$ 通过元梯度更新： $$\lambda_i \leftarrow \lambda_i - \alpha \frac{\partial L}{\partial \lambda_i}$$

衰减率的自适应学习¶

对编码稳定知识的参数：元梯度倾向于降低 $\lambda_i$，保留已有知识
对跟踪时变目标的参数：元梯度倾向于提高 $\lambda_i$，允许快速遗忘并学习新模式

神经网络末层应用¶

将 FADE 扩展到神经网络的最末层（通常编码任务特定知识），保持其余层的参数相对稳定。

为什么重要¶

精细化遗忘控制：首次实现参数级别的遗忘率自适应，无需人工设计哪些知识应该保留
理论支撑：提供了在线学习场景下的收敛性分析，而非仅靠实验验证
与持续学习主流方法互补：可与回放、正则化等方法结合

与移动端/端侧相关性¶

高度相关。FADE 的核心场景是"有限容量智能体"——这正是端侧设备的本质约束：

移动端记忆管理的理论基础：移动端 AI 助手需要在有限内存中持续学习用户偏好，FADE 提供了"什么时候遗忘"的算法框架
低计算开销：在线更新衰减率的开销极小，适合端侧部署
边缘推理友好：通过主动遗忘减少记忆占用，可以降低长推理过程中的 KV cache 或 attention 历史大小

关键词：选择性遗忘、有限容量学习、权重衰减、自适应正则化、灾难性遗忘、在线学习