Selective Forgetting for Large Reasoning Models¶
论文基本信息¶
- 作者: Yuxiang Wei, Zhenting Wang, Kai Mei, Qi Pang, Shuai Zhang, Haizhou Zheng
- arXiv: https://arxiv.org/abs/2604.03571
- 领域: cs.AI, cs.LG
摘要¶
大语言模型在推理过程中会积累大量中间推理状态,当上下文超出限制时需要选择性遗忘。Selective Forgetting 研究如何在不损害核心推理能力的前提下,有策略地遗忘不再需要的推理中间状态。该方法区分"有价值的推理链"和"临时的中间假设",只遗忘后者。在数学推理、代码生成等需要长链推理的任务上,该方法在不损失最终答案准确率的情况下,将有效上下文窗口利用率提升 40%。
核心贡献¶
- Selective Forgetting 框架: 系统性地研究大推理模型的选择性遗忘问题
- Value-aware Forgetter: 训练一个价值评估器,判断每个中间状态的后续利用价值
- 40% Context 利用率提升: 在保持准确率的同时显著提升有效上下文利用率
- 无损推理: 遗忘策略确保关键推理链被保留,只清除临时假设
- 通用设计: 可与任何链式推理方法结合,不限于特定模型架构
研究背景与问题¶
LLM 推理过程中会生成大量中间步骤(CoT、代码执行结果等),这些中间状态占用大量上下文,但并非都有价值。传统的全部保留或全部丢弃都不可取——需要选择性遗忘那些"后续不会再用"的状态。
核心方法¶
- Reasoning State Graph: 将推理过程建模为状态图,节点=推理步骤,边=依赖关系
- Value Estimator: 训练一个轻量级网络评估每个状态节点的后续利用价值
- Forgetter Policy: 基于价值评估决定保留/遗忘/压缩每个状态节点
- Backward Pruning: 从最终答案反向追溯,只保留对最终答案有贡献的状态
- Forward Compression: 对被标记为"临时的"状态进行有损压缩(如只保留关键变量绑定)
为什么重要¶
选择性遗忘是解决 Agent 记忆资源有限性的重要技术。该论文首次系统定义了"推理状态价值"的概念和评估方法,为记忆压缩提供了更精细化的方向——不是粗粒度地全部压缩或全部保留,而是根据实际价值区分对待。
与移动端/端侧相关性¶
- 上下文窗口利用率: 40% 提升意味着在同等硬件条件下可处理更长的推理任务
- 轻量级 Value Estimator: 小型网络可在端侧运行,不依赖云端
- 实时推理优化: 对手机实时语音助手、车载对话系统等有直接价值
- 增量式遗忘: 可在推理过程中逐步遗忘,不需要预先知道全部上下文