跳转至

Hidden Failure Modes of Gradient Modification under Adam in Continual Learning, and Adaptive Decoupled Moment Routing as a Repair

论文基本信息

  • arXiv ID: 2604.22407v1
  • 发表时间: 2026-04-24
  • 方向: 持续学习、优化器动态、灾难性遗忘

摘要(翻译)

许多持续学习方法在上游修改梯度(如投影、惩罚重缩放、重放混合),而将 Adam 视为中立的后端。本文揭示了这一组合存在一个隐藏的失效模式。在高重叠、非自适应 8 域持续语言模型中,所有共享路由投影基线都崩溃至接近 vanilla 遗忘水平(12.5-12.8 vs. 13.2)。0.5% 的重放缓冲区是最强的共享替代方案,但仍达到 11.6,而固定强度解耦则降至 vanilla 以下的 14.1。只有自适应解耦路由在 9.4 处保持稳定,比 vanilla 提升 3.8 个单位。在 16 域流上,其相对于最强共享路由投影基线的优势扩大到 4.5-4.8 个单位。这种失败在干净基准上基本不可见。

本文通过 Adam 的二阶矩路径解释这一效应:在测试范围内,投影引起旧方向有效学习率的 1/(1-α) 膨胀,在八个 α 值下与测量值在 8% 以内匹配。同样的冲突也出现在惩罚方法、重放混合和 LoRA 下的 7B 规模上。本文的修复方案将修改后的梯度仅路由至一阶矩,同时保持幅度忠实的一阶矩统计量,具有重叠感知的自适应强度。这个简单的改动是唯一能在方法、优化器和规模上持续避免崩溃的配置。

核心贡献

  1. 发现 Adam 组合失效现象:揭示持续学习方法与 Adam 优化器组合使用时存在隐藏的梯度崩溃问题——在标准基准上完全不可见,只有在高重叠设置下才暴露。
  2. 理论解释:通过 1/(1-α) 学习率膨胀机制解释失效原因——投影操作在 Adam 的二阶矩路径中放大了旧方向的梯度。
  3. 提出自适应解耦路由(Adaptive Decoupled Moment Routing):将修改后的梯度仅路由至 Adam 的一阶矩,同时保持幅度忠实的一阶矩统计量,是唯一在所有测试场景下避免崩溃的配置。

为什么重要

这篇论文对持续学习领域有重要警示意义:许多看起来有效的持续学习方法(梯度投影、惩罚重放等)在与实际生产环境常用的 Adam 优化器组合时可能完全失效。该问题在高任务重叠的真实场景中尤为严重,但现有基准测试完全无法检测出来。这意味着当前的持续学习评估体系存在系统性的盲点。

与移动端/端侧的相关性:端侧 AI 模型通常使用量化和紧凑的优化器配置,Adam 的二阶矩动态在低精度环境下可能进一步恶化。自适应解耦路由作为一种轻量级修复方案,可直接应用于端侧持续学习系统。

与本 Wiki 主题的关联

  • 持续学习与灾难性遗忘:Adam 优化器与梯度修改方法的隐藏冲突是灾难性遗忘研究的重要发现
  • 记忆的压缩与遗忘:遗忘(通过权重衰减)与优化器动态之间的相互作用