Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning¶
论文信息¶
- arXiv ID: 2605.09640
- 发表日期: 2026-05-10
- 作者: Meng Lou, Hanzhong Guo, Linwei Chen et al.
- 方向: 持续学习 / 强化微调 / 视觉
- 开源: 待确认
摘要(英译中)¶
近期研究表明,强化微调(RFT)本质上比监督微调(SFT)对灾难性遗忘更具韧性。然而,RFT(如 GRPO)是否能在具有挑战性的视觉持续学习设置(如类增量学习和域增量学习)中有效克服遗忘,仍是一个开放问题。
通过试点研究,作者确认虽然 RFT 一致地优于 SFT,但仍存在不可忽视的遗忘。他们经验性地将这一瓶颈追溯到轨迹级漂移不可知(Trajectory-level Drift Agnosticism):在实现相同任务奖励的候选轨迹中,与前任务策略的 KL 散度差异很大,这与跨顺序任务的灾难性遗忘强相关。
受此洞察启发,作者提出 Retention-aware Policy Optimization (RaPO),由两个核心组件组成: 1. Retention Reward:将轨迹级分布漂移转换为连续奖励信号,优先强化每组内保留知识的轨迹 2. 跨任务优势归一化(CTAN):在任务边界间保持奖励统计量的持久指数移动平均,以稳定持续学习期间的优化进展
在五个视觉持续学习设置上全面评估 RaPO。大量实验表明,RaPO 达到领先性能,在大幅减少灾难性遗忘的同时保持强可塑性。据作者所知,这项工作代表了在视觉持续学习中首次系统性地探索 RFT。
核心贡献¶
- RaPO 方法:Retention Reward + CTAN 双组件协同
- 轨迹级漂移不可知:首次揭示 RFT 遗忘瓶颈的根因
- 跨任务优势归一化:稳定跨任务边界的优化
- 5 个视觉 CL 基准:涵盖类增量和域增量设置
- 首个系统性探索:RFT 在视觉持续学习中的应用
关键洞察¶
在实现相同任务奖励的候选轨迹中,与前任务策略的 KL 散度差异很大,这强相关于跨顺序任务的灾难性遗忘。
相同任务奖励不等于相同知识保留程度。RaPO 通过 Retention Reward 将这种分布漂移显式化为可优化的信号。
为什么重要¶
- RFT 优于 SFT:为持续学习提供新的微调范式
- 理论洞察:揭示了"相同奖励≠相同知识保留"的关键问题
- 实用方案:RaPO 在保持塑性的同时大幅减少遗忘
与端侧/移动端的相关性¶
- 视觉持续学习是移动端和机器人系统的核心需求
- RFT 的在线学习特性适合动态环境
- 减少遗忘意味着更稳定的长期性能
参考文献¶
- 原论文: https://arxiv.org/abs/2605.09640