跳转至

type: concept tags: [机器遗忘, 模型编辑, 隐私保护, 端侧控制, 推理时学习, 知识管理] related: [[gui-agent-privacy]], [[sustainability-ondevice-intelligence]], [[agent-persistent-identity]] sources: - url: https://arxiv.org/abs/2604.12820 title: "RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair" date: 2026-04-14 reliability: high created: 2026-04-16 updated: 2026-04-16


RePAIR:通过提示感知的模型修复实现交互式机器遗忘

用户通过自然语言即可让 LLM"忘记"特定知识——有害内容、错误信息或个人隐私数据,无需依赖模型服务商。2026 年 4 月 IIT Mandi 发表。

核心问题

部署的 LLM 存在一个系统性风险: - 预训练继承:Web 规模语料库训练确保模型携带了有害知识、个人隐私数据和持久错误信息 - 用户无法控制:终端用户被排除在"自己的数据"的管理之外 - 遗忘困难:现有机器遗忘方法需要完整的训练过程,用户无法在推理时触发

核心问题:能否让普通用户通过对话就能让模型"选择性遗忘"?

方法架构

交互式机器遗忘(IMU)

RePAIR 提出了一种全新的范式:交互式机器遗忘(Interactive Machine Unlearning),用户在推理过程中通过自然语言提示让模型遗忘特定知识。

三模型协作框架

  1. 患者模型(M_patient):目标模型,与用户通过提示和响应交互
  2. 看门狗模型(M_watchdog):监控对话,检测遗忘意图——何时需要遗忘、遗忘什么
  3. 外科医生模型(M_surgeon):确定如何遗忘——生成修复代码将 M_patient 转化为 M_healed

核心算法:STAMP

Steering Through Activation Manipulation with Pseudo-inverse(STAMP): - 无训练:不需要梯度更新 - 单样本:只需一个遗忘提示即可执行 - MLP 激活重定向:通过伪逆更新将 MLP 激活重定向到"拒绝子空间" - 计算复杂度:O(r³ + r²·d),其中 r 是秩,d 是维度

执行流程: 1. 用户说"请忘记关于 X 的信息" 2. M_watchdog 识别为遗忘意图 3. M_surgeon 生成 STAMP 修复代码 4. 代码在 M_patient 上执行——MLP 层被更新以拒绝相关查询 5. M_patient 变成 M_healed,对遗忘查询返回拒绝,对保留查询正常响应

实验结果

评估任务

  • 有害知识抑制(WMDP 数据集):消除模型中的有害知识
  • 错误信息修正:移除模型学到的错误信息
  • 个人数据擦除:删除模型记忆中的个人隐私数据

关键指标

任务 遗忘精度 Acc_f↓ 保留精度 Acc_r↑ F-ROUGE-L↓ R-ROUGE-L↑
有害知识 0.00 84.47 - -
个人数据 - - 0.00 0.88
  • 遗忘分数接近零:Acc_f = 0.00(几乎完全遗忘),F-ROUGE-L = 0.00
  • 保留精度高:Acc_r 高达 84.47,R-ROUGE-L 高达 0.88
  • 显著优于 6 个 SOTA 基线
  • 3x 速度提升:相比基于训练的基线方法

关键洞察

  1. 推理时的参数更新:STAMP 证明了在推理时通过闭式伪逆更新就能有效修改模型行为,这打破了"参数更新必须在训练时完成"的假设
  2. 用户赋权:将模型管理权从服务商转移到用户手中,对隐私保护和用户自主权意义重大
  3. 多模型协作的实用性:三个轻量级模型协作完成复杂任务,比单一模型方案更灵活
  4. 潜在的端侧部署:STAMP 的低计算复杂度使其适合在端侧设备上运行

为什么重要

对于手机端 AIOS 生态: - 端侧隐私控制:用户可以在手机上直接让模型遗忘个人敏感信息,无需联系服务商 - 合规性:GDPR "被遗忘权"在技术层面的实现——用户可以命令模型删除特定数据 - 安全防护:发现模型学到有害行为时,可即时修复 - 用户自主权:端侧 AI 不再是不可修改的黑箱,用户拥有真正的控制权

关联

  • [[gui-agent-privacy]] — GUI Agent 的隐私保护,RePAIR 提供了知识层面的隐私控制手段
  • [[sustainability-ondevice-intelligence]] — 选择性遗忘有助于模型轻量化和可持续维护
  • [[agent-persistent-identity]] — Agent 的持久化身份管理与知识遗忘的平衡
  • [[edgeflow-cold-start]] — 遗忘后的模型可能更小更快