跳转至

Attribution-Guided Continual Learning for Large Language Models

论文基本信息

  • 作者: Yazheng Liu, Yuxuan Wan, Rui Xu, Xi Zhang, Sihong Xie, Hui Xiong
  • 方向: LLM 持续学习 / 参数重要性引导的梯度调制
  • 发布日期: 2026-05-06

摘要(翻译)

大型语言模型(LLM)在持续学习中经常遭受灾难性遗忘:按顺序学习新任务后,在早期任务上的表现变差。现有方法通过数据回放、参数冻结或正则化来缓解灾难性遗忘。然而,这些方法缺乏对 LLM 内部知识分布的语义感知,因此无法区分应该保留或更新的参数。本文提出一种针对 LLM 的归因引导持续微调框架。我们的方法估计每个 Transformer 层中任务特定的、逐元素的参数重要性分数,并使用这些分数来调制梯度。对旧任务重要的参数接收较小的更新,而不太相关的参数保持可塑性以学习新任务。在持续学习基准上的实验表明,我们的方法始终优于基线,在保持旧任务性能的同时在新任务上保持有竞争力的表现。

核心贡献

  1. 参数级重要性归因:首次提出对 Transformer 每个层的参数进行任务相关的逐元素重要性估计,捕捉 LLM 内部的知识分布。
  2. 归因引导的梯度调制:使用参数重要性分数作为梯度调制因子,重要参数获得较小的梯度更新(保护),不重要的参数获得较大的更新(保持可塑性)。
  3. 无需额外数据或架构:仅使用梯度调制,无需回放缓冲区或额外的模块化组件,与标准微调流程兼容。
  4. 语义感知的遗忘防护:与仅关注输出分布的方法不同,归因方法直接作用于参数空间,实现更细粒度的知识保护。

技术细节

归因引导的梯度调制

对 Transformer 第 l 层的参数 $W^l$,重要性分数 $I^l$ 通过以下方式估计:

  1. 计算旧任务在参数上的梯度 $G_{old} = \nabla_{\theta} \mathcal{L}_{old}$
  2. 对新任务进行梯度归因,分解各参数对旧任务性能的贡献
  3. 调制梯度:$\theta_{new} = \theta_{old} - \eta \cdot (I \odot G_{new} + (1-I) \odot G_{old})$

与主流方法的对比

方法 数据回放 架构扩展 正则化 语义感知
EWC
LoRA
本文方法

实验验证

在多个 LLM 持续学习基准上验证: - 旧任务保留率:显著优于 LoRA 和 EWC 基线 - 新任务学习能力:与直接微调相当,无显著性能惩罚 - 跨架构泛化:在 LLaMA、BERT 等不同架构上均有效

为什么重要

  1. 填补语义感知空白:现有方法从外部(输出分布、正则化强度)间接感知遗忘,而本文从参数内部知识结构直接感知,实现更精准的保护。
  2. 实用的梯度调制策略:仅需一次额外的反向传播来估计重要性分数,计算开销可接受。
  3. 兼容多种部署场景:无需数据回放(保护隐私)或架构扩展(节省内存),适合端侧 LLM 的持续学习。

与移动端/端侧的相关性

  • 隐私保护:无需回放旧任务数据,适合保护用户隐私的端侧场景
  • 内存高效:相比架构扩展方法(如 Progressive Networks),不增加推理时的参数数量
  • 梯度调制的轻量实现:重要性分数计算可离线进行,在线更新仅涉及逐元素乘法

参考

  • GitHub: (未公开)
  • arXiv: https://arxiv.org/abs/2605.05285