Hidden Failure Modes of Gradient Modification under Adam in Continual Learning, and Adaptive Decoupled Moment Routing as a Repair

论文基本信息¶

arXiv ID: 2604.22407v1
发表时间: 2026-04-24
方向: 持续学习、优化器动态、灾难性遗忘

摘要（翻译）¶

许多持续学习方法在上游修改梯度（如投影、惩罚重缩放、重放混合），而将 Adam 视为中立的后端。本文揭示了这一组合存在一个隐藏的失效模式。在高重叠、非自适应 8 域持续语言模型中，所有共享路由投影基线都崩溃至接近 vanilla 遗忘水平（12.5-12.8 vs. 13.2）。0.5% 的重放缓冲区是最强的共享替代方案，但仍达到 11.6，而固定强度解耦则降至 vanilla 以下的 14.1。只有自适应解耦路由在 9.4 处保持稳定，比 vanilla 提升 3.8 个单位。在 16 域流上，其相对于最强共享路由投影基线的优势扩大到 4.5-4.8 个单位。这种失败在干净基准上基本不可见。

本文通过 Adam 的二阶矩路径解释这一效应：在测试范围内，投影引起旧方向有效学习率的 1/(1-α) 膨胀，在八个 α 值下与测量值在 8% 以内匹配。同样的冲突也出现在惩罚方法、重放混合和 LoRA 下的 7B 规模上。本文的修复方案将修改后的梯度仅路由至一阶矩，同时保持幅度忠实的一阶矩统计量，具有重叠感知的自适应强度。这个简单的改动是唯一能在方法、优化器和规模上持续避免崩溃的配置。

核心贡献¶

发现 Adam 组合失效现象：揭示持续学习方法与 Adam 优化器组合使用时存在隐藏的梯度崩溃问题——在标准基准上完全不可见，只有在高重叠设置下才暴露。
理论解释：通过 1/(1-α) 学习率膨胀机制解释失效原因——投影操作在 Adam 的二阶矩路径中放大了旧方向的梯度。
提出自适应解耦路由（Adaptive Decoupled Moment Routing）：将修改后的梯度仅路由至 Adam 的一阶矩，同时保持幅度忠实的一阶矩统计量，是唯一在所有测试场景下避免崩溃的配置。

为什么重要¶

这篇论文对持续学习领域有重要警示意义：许多看起来有效的持续学习方法（梯度投影、惩罚重放等）在与实际生产环境常用的 Adam 优化器组合时可能完全失效。该问题在高任务重叠的真实场景中尤为严重，但现有基准测试完全无法检测出来。这意味着当前的持续学习评估体系存在系统性的盲点。

与移动端/端侧的相关性：端侧 AI 模型通常使用量化和紧凑的优化器配置，Adam 的二阶矩动态在低精度环境下可能进一步恶化。自适应解耦路由作为一种轻量级修复方案，可直接应用于端侧持续学习系统。

与本 Wiki 主题的关联¶

持续学习与灾难性遗忘：Adam 优化器与梯度修改方法的隐藏冲突是灾难性遗忘研究的重要发现
记忆的压缩与遗忘：遗忘（通过权重衰减）与优化器动态之间的相互作用