CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning

论文基本信息¶

作者: Md Anwar Hossen, Fatema Siddika, Juan Pablo Munoz, Tanya Roosta, Ali Jannesari
方向: LLM 持续学习 / 灾难性遗忘干预
发布日期: 2026-05-07

摘要（翻译）¶

大型语言模型（LLM）通过微调可以获得新能力，但持续适应往往导致灾难性遗忘。本文提出 CRAFT，一个避免更新模型权重、而是在隐藏表示上学习低秩干预的持续学习框架。CRAFT 分为三个阶段：首先根据输出分布差异将每个任务路由到相似任务组；然后使用 KL 散度针对组先验状态微调模型，直接控制遗忘并确定收敛；最后使用同一 KL 信号将更新任务的干预合并到共享表示中。这一设计通过单一 KL 目标统一了路由、正则化和合并三个阶段。CRAFT 在多个基准和模型规模上相比强 LoRA 基线方法提升了整体性能并减少了遗忘，同时对任务顺序具有鲁棒性。

核心贡献¶

低秩干预替代权重更新：与直接微调模型权重不同，CRAFT 通过学习隐藏表示空间中的低秩干预来适应新任务，完全避免权重更新，从而从根本上防止遗忘。
统一 KL 散度框架：将路由、正则化和合并三个阶段统一在单一 KL 散度目标下——KL 散度同时驱动任务分组强度、遗忘控制力度和合并策略。
任务分组路由：根据输出分布差异自动将相似任务分组，减少组内干扰，同时保留跨组知识迁移。
遗忘感知的收敛控制：通过 KL 散度直接量化遗忘程度，动态调整收敛阈值，保证旧任务性能不显著下降。

技术细节¶

三阶段 pipeline¶

Stage 1 - 任务路由：计算新任务与已有任务组的输出分布 KL 散度，将新任务分配到相似任务组（支持多组软分配）。

Stage 2 - 正则化微调：针对组的先验状态计算 KL 损失，而非针对单一任务。这使得干预自然地在组内共享，同时通过 KL 幅度控制每个任务的遗忘量。

Stage 3 - 干预合并：将更新后的任务干预合并到组级共享表示中。合并权重由 KL 信号决定——与组差异越大，合并权重越保守。

与 LoRA 的关键区别¶

特性	LoRA	CRAFT
权重更新	低秩矩阵更新	完全冻结，无权重更新
遗忘机制	正则化项被动约束	KL 散度主动控制
跨任务复用	无（每任务独立）	任务组内干预共享
路由机制	无	输出分布驱动的自动路由

为什么重要¶

首个真正冻结权重的 LLM 持续学习框架：完全避免权重更新的设计理念为边缘/端侧部署提供了天然优势——无需保留旧任务权重副本。
可证明的遗忘控制：KL 散度同时作为收敛准则和遗忘度量，实现了理论上可追踪的遗忘边界。
与移动端/边缘的相关性：权重冻结意味着推理时无需加载多任务权重副本，显著降低端侧部署的内存开销。

与移动端/端侧的相关性¶

内存效率：权重冻结 + 低秩干预使得存储开销从 O(模型参数) 降低到 O(干预维度 × 任务数)
增量更新：新任务只需添加新的低秩干预向量，无需重新训练已有任务
隐私友好：可以在不访问旧任务数据的情况下防止遗忘（仅需保留输出分布统计量）

参考¶

GitHub: (未公开)
arXiv: https://arxiv.org/abs/2605.05732