Towards Benign Memory Forgetting for Selective Multimodal Large Language Model Unlearning¶

论文基本信息¶

作者: Zhen Zeng, Leijiang Gu, Zhangling Duan, Feng Li, Zenglin Shi 等
arXiv: https://arxiv.org/abs/2511.20196
领域: cs.AI, cs.LG

摘要¶

多模态大语言模型（MLLM）功能强大，但可能无意中记忆隐私敏感信息。虽然现有遗忘方法可以删除此类知识，但往往损害模型的一般图像理解能力，导致"良性遗忘"无法实现。SMFA（Sculpted Memory Forgetting Adapter）将遗忘限制在目标记忆区域，同时保留整体能力。SMFA 先微调模型将敏感响应替换为拒绝回答，生成记忆遗忘适配器，再应用保留锚引导的掩码机制，防止干扰无关知识和理解能力。在 S-MLLMUn Bench 上，SMFA 实现了精确可控的遗忘，同时保持模型的基础图像理解能力。

核心贡献¶

SMFA 框架: 首个实现选择性 MLLM 遗忘的框架，确保"良性遗忘"
Targeted Memory Forgetting: 将遗忘限制在目标记忆区域，不损害通用能力
Retaining Anchor Guidance: 保留锚引导的掩码机制，保护无关知识
S-MLLMUn Bench: 首个联合评估敏感知识删除和通用视觉理解保持的基准
Precision Unlearning: 遗忘精度达到目标知识级别，而非模型整体级别

研究背景与问题¶

MLLM 可能记忆训练数据中的隐私信息（如人脸、财务记录）。标准遗忘方法会导致模型整体能力下降，无法实现"删除隐私知识但不损害能力"的良性遗忘目标。

核心方法¶

Memory Region Identification: 识别模型中存储目标隐私知识的参数区域
Forgetting Adapter Fine-tuning: 训练遗忘适配器，将敏感响应替换为拒绝
Retaining Anchor Masking: 应用保留锚掩码，保护与遗忘目标无关的参数
Capability Preservation Check: 验证遗忘后模型在通用视觉理解上的能力保持
Selective vs Complete: 区分选择性遗忘（只删特定记忆）和完全遗忘（删除所有相关知识）

为什么重要¶

SMFA 在隐私保护和模型能力之间取得了前所未有的平衡。对于需要在设备上存储用户隐私记忆的 Agent 系统，良性遗忘能力是用户隐私保护的核心技术保障。

与移动端/端侧相关性¶

本地隐私保护: 遗忘在本地执行，无需上传敏感数据
用户可控遗忘: 用户可选择性地要求模型遗忘特定记忆
不损害基础能力: 遗忘后模型基础能力保持，不影响其他功能
合规性: 满足 GDPR 等数据保护法规的"被遗忘权"要求