CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning
论文基本信息¶
- 作者: Md Anwar Hossen, Fatema Siddika, Juan Pablo Munoz, Tanya Roosta, Ali Jannesari
- 方向: LLM 持续学习 / 灾难性遗忘干预
- 发布日期: 2026-05-07
摘要(翻译)¶
大型语言模型(LLM)通过微调可以获得新能力,但持续适应往往导致灾难性遗忘。本文提出 CRAFT,一个避免更新模型权重、而是在隐藏表示上学习低秩干预的持续学习框架。CRAFT 分为三个阶段:首先根据输出分布差异将每个任务路由到相似任务组;然后使用 KL 散度针对组先验状态微调模型,直接控制遗忘并确定收敛;最后使用同一 KL 信号将更新任务的干预合并到共享表示中。这一设计通过单一 KL 目标统一了路由、正则化和合并三个阶段。CRAFT 在多个基准和模型规模上相比强 LoRA 基线方法提升了整体性能并减少了遗忘,同时对任务顺序具有鲁棒性。
核心贡献¶
- 低秩干预替代权重更新:与直接微调模型权重不同,CRAFT 通过学习隐藏表示空间中的低秩干预来适应新任务,完全避免权重更新,从而从根本上防止遗忘。
- 统一 KL 散度框架:将路由、正则化和合并三个阶段统一在单一 KL 散度目标下——KL 散度同时驱动任务分组强度、遗忘控制力度和合并策略。
- 任务分组路由:根据输出分布差异自动将相似任务分组,减少组内干扰,同时保留跨组知识迁移。
- 遗忘感知的收敛控制:通过 KL 散度直接量化遗忘程度,动态调整收敛阈值,保证旧任务性能不显著下降。
技术细节¶
三阶段 pipeline¶
Stage 1 - 任务路由:计算新任务与已有任务组的输出分布 KL 散度,将新任务分配到相似任务组(支持多组软分配)。
Stage 2 - 正则化微调:针对组的先验状态计算 KL 损失,而非针对单一任务。这使得干预自然地在组内共享,同时通过 KL 幅度控制每个任务的遗忘量。
Stage 3 - 干预合并:将更新后的任务干预合并到组级共享表示中。合并权重由 KL 信号决定——与组差异越大,合并权重越保守。
与 LoRA 的关键区别¶
| 特性 | LoRA | CRAFT |
|---|---|---|
| 权重更新 | 低秩矩阵更新 | 完全冻结,无权重更新 |
| 遗忘机制 | 正则化项被动约束 | KL 散度主动控制 |
| 跨任务复用 | 无(每任务独立) | 任务组内干预共享 |
| 路由机制 | 无 | 输出分布驱动的自动路由 |
为什么重要¶
- 首个真正冻结权重的 LLM 持续学习框架:完全避免权重更新的设计理念为边缘/端侧部署提供了天然优势——无需保留旧任务权重副本。
- 可证明的遗忘控制:KL 散度同时作为收敛准则和遗忘度量,实现了理论上可追踪的遗忘边界。
- 与移动端/边缘的相关性:权重冻结意味着推理时无需加载多任务权重副本,显著降低端侧部署的内存开销。
与移动端/端侧的相关性¶
- 内存效率:权重冻结 + 低秩干预使得存储开销从 O(模型参数) 降低到 O(干预维度 × 任务数)
- 增量更新:新任务只需添加新的低秩干预向量,无需重新训练已有任务
- 隐私友好:可以在不访问旧任务数据的情况下防止遗忘(仅需保留输出分布统计量)
参考¶
- GitHub: (未公开)
- arXiv: https://arxiv.org/abs/2605.05732