Predicting Plasticity in Deep Continual Learning: A Theoretical Perspective

摘要¶

深度持续学习要求模型在不从头训练的情况下适应新任务。然而，神经网络在训练完先前任务后可能丧失适应新任务的能力，这种现象称为塑性丧失（loss of plasticity）。现有研究和诊断方法对此有多种解释和检测方案。本文从实用角度出发，将塑性解释为可训练性（trainability）：神经网络在未来目标任务上的优化收益。通过构造反例证明广泛采用的塑性诊断指标（包括表示秩和神经正切核秩）在回归和分类设置中都可能失效，无法预测可训练性的丧失。本文提出优化就绪度（Optimization Readiness）指标，结合梯度强度和梯度可靠性，在标准平滑假设下证明其下界一步优化收益，为预测能力提供理论保证。在常用的深度持续学习设置（如 Slow-Changing Regression 和 Permuted MNIST）上的实验表明，优化就绪度比先前诊断方法更可靠地排序检查点，即使样本量显著减少。

核心贡献¶

塑性 ≠ 可训练性的理论反例：证明表示秩、NTK 秩等常用诊断指标可被构造反例击败
优化就绪度（Optimization Readiness）：新指标 = 梯度强度 × 梯度可靠性，有理论保证下界一步优化收益
样本高效：仅需少量样本即可给出可靠的塑性预测
广泛验证：在 Permuted MNIST、Slow-Changing Regression 等标准 CL 设置上验证有效性
理论保证：首次为塑性预测指标提供收敛性理论证明

为什么重要¶

灾难性遗忘研究多关注如何防止遗忘，但"模型是否还有能力学习新知识"这一基础问题长期被忽视。塑性丧失使得即使完美的防遗忘机制也无用武之地。优化就绪度提供了首个有理论保证的塑性预测工具，让研究者可以在训练中途提前预判模型状态，为持续学习的在线监控和自适应干预提供基础。

与端侧/移动端的相关性¶

轻量诊断：优化就绪度仅需两个标量（梯度强度和梯度可靠性），计算开销极低，适合端侧部署
在线监控：可在端侧设备上周期性运行，提前检测模型是否进入"学不动"状态
自适应学习策略：检测到塑性下降时，可触发模型切换、记忆压缩或知识蒸馏等干预
边缘持续学习：边缘 AI 系统长期运行后性能退化问题，优化就绪度提供了量化诊断工具

参考文献¶

优化就绪度公式：结合梯度强度和梯度可靠性的乘积
理论证明：下界一步优化收益的收敛性保证
实验基准：Permuted MNIST、Slow-Changing Regression