type: concept tags: [机器遗忘, 模型编辑, 隐私保护, 端侧控制, 推理时学习, 知识管理] related: [[gui-agent-privacy]], [[sustainability-ondevice-intelligence]], [[agent-persistent-identity]] sources: - url: https://arxiv.org/abs/2604.12820 title: "RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair" date: 2026-04-14 reliability: high created: 2026-04-16 updated: 2026-04-16
RePAIR:通过提示感知的模型修复实现交互式机器遗忘¶
用户通过自然语言即可让 LLM"忘记"特定知识——有害内容、错误信息或个人隐私数据,无需依赖模型服务商。2026 年 4 月 IIT Mandi 发表。
核心问题¶
部署的 LLM 存在一个系统性风险: - 预训练继承:Web 规模语料库训练确保模型携带了有害知识、个人隐私数据和持久错误信息 - 用户无法控制:终端用户被排除在"自己的数据"的管理之外 - 遗忘困难:现有机器遗忘方法需要完整的训练过程,用户无法在推理时触发
核心问题:能否让普通用户通过对话就能让模型"选择性遗忘"?
方法架构¶
交互式机器遗忘(IMU)¶
RePAIR 提出了一种全新的范式:交互式机器遗忘(Interactive Machine Unlearning),用户在推理过程中通过自然语言提示让模型遗忘特定知识。
三模型协作框架¶
- 患者模型(M_patient):目标模型,与用户通过提示和响应交互
- 看门狗模型(M_watchdog):监控对话,检测遗忘意图——何时需要遗忘、遗忘什么
- 外科医生模型(M_surgeon):确定如何遗忘——生成修复代码将 M_patient 转化为 M_healed
核心算法:STAMP¶
Steering Through Activation Manipulation with Pseudo-inverse(STAMP): - 无训练:不需要梯度更新 - 单样本:只需一个遗忘提示即可执行 - MLP 激活重定向:通过伪逆更新将 MLP 激活重定向到"拒绝子空间" - 计算复杂度:O(r³ + r²·d),其中 r 是秩,d 是维度
执行流程: 1. 用户说"请忘记关于 X 的信息" 2. M_watchdog 识别为遗忘意图 3. M_surgeon 生成 STAMP 修复代码 4. 代码在 M_patient 上执行——MLP 层被更新以拒绝相关查询 5. M_patient 变成 M_healed,对遗忘查询返回拒绝,对保留查询正常响应
实验结果¶
评估任务¶
- 有害知识抑制(WMDP 数据集):消除模型中的有害知识
- 错误信息修正:移除模型学到的错误信息
- 个人数据擦除:删除模型记忆中的个人隐私数据
关键指标¶
| 任务 | 遗忘精度 Acc_f↓ | 保留精度 Acc_r↑ | F-ROUGE-L↓ | R-ROUGE-L↑ |
|---|---|---|---|---|
| 有害知识 | 0.00 | 84.47 | - | - |
| 个人数据 | - | - | 0.00 | 0.88 |
- 遗忘分数接近零:Acc_f = 0.00(几乎完全遗忘),F-ROUGE-L = 0.00
- 保留精度高:Acc_r 高达 84.47,R-ROUGE-L 高达 0.88
- 显著优于 6 个 SOTA 基线
- 3x 速度提升:相比基于训练的基线方法
关键洞察¶
- 推理时的参数更新:STAMP 证明了在推理时通过闭式伪逆更新就能有效修改模型行为,这打破了"参数更新必须在训练时完成"的假设
- 用户赋权:将模型管理权从服务商转移到用户手中,对隐私保护和用户自主权意义重大
- 多模型协作的实用性:三个轻量级模型协作完成复杂任务,比单一模型方案更灵活
- 潜在的端侧部署:STAMP 的低计算复杂度使其适合在端侧设备上运行
为什么重要¶
对于手机端 AIOS 生态: - 端侧隐私控制:用户可以在手机上直接让模型遗忘个人敏感信息,无需联系服务商 - 合规性:GDPR "被遗忘权"在技术层面的实现——用户可以命令模型删除特定数据 - 安全防护:发现模型学到有害行为时,可即时修复 - 用户自主权:端侧 AI 不再是不可修改的黑箱,用户拥有真正的控制权
关联¶
- [[gui-agent-privacy]] — GUI Agent 的隐私保护,RePAIR 提供了知识层面的隐私控制手段
- [[sustainability-ondevice-intelligence]] — 选择性遗忘有助于模型轻量化和可持续维护
- [[agent-persistent-identity]] — Agent 的持久化身份管理与知识遗忘的平衡
- [[edgeflow-cold-start]] — 遗忘后的模型可能更小更快