type: concept tags: [机器遗忘, 模型编辑, 隐私保护, 端侧控制, 推理时学习, 知识管理] related: [[gui-agent-privacy]], [[sustainability-ondevice-intelligence]], [[agent-persistent-identity]] sources: - url: https://arxiv.org/abs/2604.12820 title: "RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair" date: 2026-04-14 reliability: high created: 2026-04-16 updated: 2026-04-16

RePAIR：通过提示感知的模型修复实现交互式机器遗忘¶

用户通过自然语言即可让 LLM"忘记"特定知识——有害内容、错误信息或个人隐私数据，无需依赖模型服务商。2026 年 4 月 IIT Mandi 发表。

核心问题¶

部署的 LLM 存在一个系统性风险： - 预训练继承：Web 规模语料库训练确保模型携带了有害知识、个人隐私数据和持久错误信息 - 用户无法控制：终端用户被排除在"自己的数据"的管理之外 - 遗忘困难：现有机器遗忘方法需要完整的训练过程，用户无法在推理时触发

核心问题：能否让普通用户通过对话就能让模型"选择性遗忘"？

方法架构¶

交互式机器遗忘（IMU）¶

RePAIR 提出了一种全新的范式：交互式机器遗忘（Interactive Machine Unlearning），用户在推理过程中通过自然语言提示让模型遗忘特定知识。

三模型协作框架¶

患者模型（M_patient）：目标模型，与用户通过提示和响应交互
看门狗模型（M_watchdog）：监控对话，检测遗忘意图——何时需要遗忘、遗忘什么
外科医生模型（M_surgeon）：确定如何遗忘——生成修复代码将 M_patient 转化为 M_healed

核心算法：STAMP¶

Steering Through Activation Manipulation with Pseudo-inverse（STAMP）： - 无训练：不需要梯度更新 - 单样本：只需一个遗忘提示即可执行 - MLP 激活重定向：通过伪逆更新将 MLP 激活重定向到"拒绝子空间" - 计算复杂度：O(r³ + r²·d)，其中 r 是秩，d 是维度

执行流程： 1. 用户说"请忘记关于 X 的信息" 2. M_watchdog 识别为遗忘意图 3. M_surgeon 生成 STAMP 修复代码 4. 代码在 M_patient 上执行——MLP 层被更新以拒绝相关查询 5. M_patient 变成 M_healed，对遗忘查询返回拒绝，对保留查询正常响应

实验结果¶

评估任务¶

有害知识抑制（WMDP 数据集）：消除模型中的有害知识
错误信息修正：移除模型学到的错误信息
个人数据擦除：删除模型记忆中的个人隐私数据

关键指标¶

任务	遗忘精度 Acc_f↓	保留精度 Acc_r↑	F-ROUGE-L↓	R-ROUGE-L↑
有害知识	0.00	84.47	-	-
个人数据	-	-	0.00	0.88

遗忘分数接近零：Acc_f = 0.00（几乎完全遗忘），F-ROUGE-L = 0.00
保留精度高：Acc_r 高达 84.47，R-ROUGE-L 高达 0.88
显著优于 6 个 SOTA 基线
3x 速度提升：相比基于训练的基线方法

关键洞察¶

推理时的参数更新：STAMP 证明了在推理时通过闭式伪逆更新就能有效修改模型行为，这打破了"参数更新必须在训练时完成"的假设
用户赋权：将模型管理权从服务商转移到用户手中，对隐私保护和用户自主权意义重大
多模型协作的实用性：三个轻量级模型协作完成复杂任务，比单一模型方案更灵活
潜在的端侧部署：STAMP 的低计算复杂度使其适合在端侧设备上运行

为什么重要¶

对于手机端 AIOS 生态： - 端侧隐私控制：用户可以在手机上直接让模型遗忘个人敏感信息，无需联系服务商 - 合规性：GDPR "被遗忘权"在技术层面的实现——用户可以命令模型删除特定数据 - 安全防护：发现模型学到有害行为时，可即时修复 - 用户自主权：端侧 AI 不再是不可修改的黑箱，用户拥有真正的控制权

关联¶

[[gui-agent-privacy]] — GUI Agent 的隐私保护，RePAIR 提供了知识层面的隐私控制手段
[[sustainability-ondevice-intelligence]] — 选择性遗忘有助于模型轻量化和可持续维护
[[agent-persistent-identity]] — Agent 的持久化身份管理与知识遗忘的平衡
[[edgeflow-cold-start]] — 遗忘后的模型可能更小更快