Predicting Plasticity in Deep Continual Learning: A Theoretical Perspective
摘要¶
深度持续学习要求模型在不从头训练的情况下适应新任务。然而,神经网络在训练完先前任务后可能丧失适应新任务的能力,这种现象称为塑性丧失(loss of plasticity)。现有研究和诊断方法对此有多种解释和检测方案。本文从实用角度出发,将塑性解释为可训练性(trainability):神经网络在未来目标任务上的优化收益。通过构造反例证明广泛采用的塑性诊断指标(包括表示秩和神经正切核秩)在回归和分类设置中都可能失效,无法预测可训练性的丧失。本文提出优化就绪度(Optimization Readiness)指标,结合梯度强度和梯度可靠性,在标准平滑假设下证明其下界一步优化收益,为预测能力提供理论保证。在常用的深度持续学习设置(如 Slow-Changing Regression 和 Permuted MNIST)上的实验表明,优化就绪度比先前诊断方法更可靠地排序检查点,即使样本量显著减少。
核心贡献¶
- 塑性 ≠ 可训练性的理论反例:证明表示秩、NTK 秩等常用诊断指标可被构造反例击败
- 优化就绪度(Optimization Readiness):新指标 = 梯度强度 × 梯度可靠性,有理论保证下界一步优化收益
- 样本高效:仅需少量样本即可给出可靠的塑性预测
- 广泛验证:在 Permuted MNIST、Slow-Changing Regression 等标准 CL 设置上验证有效性
- 理论保证:首次为塑性预测指标提供收敛性理论证明
为什么重要¶
灾难性遗忘研究多关注如何防止遗忘,但"模型是否还有能力学习新知识"这一基础问题长期被忽视。塑性丧失使得即使完美的防遗忘机制也无用武之地。优化就绪度提供了首个有理论保证的塑性预测工具,让研究者可以在训练中途提前预判模型状态,为持续学习的在线监控和自适应干预提供基础。
与端侧/移动端的相关性¶
- 轻量诊断:优化就绪度仅需两个标量(梯度强度和梯度可靠性),计算开销极低,适合端侧部署
- 在线监控:可在端侧设备上周期性运行,提前检测模型是否进入"学不动"状态
- 自适应学习策略:检测到塑性下降时,可触发模型切换、记忆压缩或知识蒸馏等干预
- 边缘持续学习:边缘 AI 系统长期运行后性能退化问题,优化就绪度提供了量化诊断工具
参考文献¶
- 优化就绪度公式:结合梯度强度和梯度可靠性的乘积
- 理论证明:下界一步优化收益的收敛性保证
- 实验基准:Permuted MNIST、Slow-Changing Regression