跳转至

type: concept tags: [fine-tuning, hallucination, continual-learning, on-device, self-distillation, stability-plasticity] related: [[lcsb-finetuning-ondevice]], [[pAirZero-federated-finetuning]], [[pairzero-edge-llm-finetuning]], [[biotrain-ondevice-finetuning-mcu]], [[subliminal-transfer-agent-distillation]], [[amc-adaptive-memory-crystallization]] sources: - url: https://arxiv.org/abs/2604.15574 title: "Why Fine-Tuning Encourages Hallucinations and How to Fix It" date: 2026-04-18 reliability: high created: 2026-04-20 updated: 2026-04-20


SFT 诱导幻觉:微调为何制造幻觉及持续学习修复策略

监督微调(SFT)在教模型新事实的同时,会系统性地破坏已有知识——研究发现这是持续学习中的"遗忘"问题,而成熟的持续学习方法可以有效修复。

核心问题

当通过 SFT 向 LLM 注入新的事实知识时,模型会对之前已经正确回答的问题开始产生错误答案(Gekhman et al., 2024; Kalai et al., 2025)。这对端侧部署尤为致命:

  • 端侧微调场景:手机上的模型需要通过 SFT 学习用户个性化知识(日历、联系人、偏好),但每次微调都可能"覆盖"预训练中的通用知识
  • 稳定性-可塑性悖论:模型需要"可塑性"来学习新事实,但"稳定性"来保持已有知识——两者在参数更新中存在根本矛盾
  • 质量不可预测:微调后模型质量的退化是隐性的——用户无法预知哪些知识被破坏

方法架构

1. 问题重构:SFT 幻觉 = 持续学习中的遗忘

论文的核心洞察是将 SFT 诱导的幻觉重新定义为持续学习中的事实遗忘(factual forgetting)

  • 参数更新在引入新任务能力的同时,无意中扭曲了预训练中编码的事实表示
  • 不同参数组在事实存储和任务学习中扮演不同角色(Geva et al., 2021)
  • 冻结特定参数组可以在限制新事实获取的同时让模型学习下游任务

2. 自蒸馏修复(Self-Distillation)

论文采用持续学习中的自蒸馏技术:

  • 机制:在训练中途冻结一个"教师"快照,后续训练的学生模型被正则化以保持接近教师的输出分布
  • 关键超参数
  • 快照 epoch i:在第 1 个 epoch 后冻结教师效果最佳(模型已适配任务格式但尚未发生事实漂移)
  • 蒸馏权重 λλ=1 提供最佳稳定性-可塑性平衡
  • 温度 ττ=0.5 效果最优
  • 效果:自蒸馏在减少 SFT 诱导幻觉的同时,仍允许有效获取新引入的事实

3. 幻觉机制分析

通过合成事实实验,论文发现遗忘对表面形式相似性高度敏感:

实体名称类型 遗忘程度 原因
类名字符串 与预训练中已有实体共享表示空间,参数更新时发生干扰
UUID 标识符 位于独立的表示空间,不会与已有知识发生冲突

这说明幻觉主要源于局部化干扰(localized interference)——新事实通过共享的表示结构腐蚀已有事实,而非全局容量不足。

实验结果

EntityQuestions 基准(主要评测)

方法 D_Held 准确率(事实稳定性) D_Unk 准确率(事实可塑性) 综合表现
标准 SFT 低(大量遗忘) 偏差
参数冻结 高(保持知识) 低(抑制学习) 保守
自蒸馏 最优

超参数消融

  • 快照 epoch 0:D_Unk 获取显著减慢,D_Held 最低——教师约束在任务适配之前的参数空间
  • 快照 epoch 1:D_Held 最高——模型已适配任务但尚未开始事实漂移
  • 快照 > 1:D_Held 单调递减——持续的事实漂移
  • λ=0.1/0.5:D_Unk 快速获取但 D_Held 退化严重

关键洞察

  1. 微调幻觉不是 bug 而是 feature:这是 SGD 优化动态的必然产物——只要参数更新存在,就会影响已编码的知识。问题不是"是否发生遗忘",而是"如何管理遗忘"

  2. 表面形式是关键:当微调数据中的实体与预训练实体在表示空间中邻近时,干扰最大。这对端侧个性化微调有直接指导意义——用户数据中的实体(人名、地名)很可能与预训练知识重叠

  3. 自蒸馏是最简方案:不需要外部数据或复杂的正则化——仅需在训练中途保存一个快照并添加蒸馏损失。计算开销约为标准 SFT 的 1.5x,但显著提升事实稳定性

  4. 对端侧微调的启示

  5. 端侧 SFT 应始终配合自蒸馏,而非裸 SFT
  6. 微调数据的实体命名应尽量避免与通用知识重叠
  7. 可以通过冻结底层参数(事实存储层)+ 自蒸馏来实现安全的端侧个性化

为什么重要

这篇论文对手机端 AI 生态有直接且深远的影响:

  • 端侧个性化微调的安全性:各大厂商(Apple Intelligence、Google AI Core、小米 HyperAI)都在探索端侧模型个性化。此研究表明裸 SFT 会系统性破坏模型能力,自蒸馏是必要的安全措施
  • SLM 可靠性:小型语言模型(Gemma、Qwen Small 等)在端侧微调时容量更小,遗忘问题更严重——自蒸馏对 SLM 的价值比 LLM 更大
  • Agent 系统的知识更新:端侧 Agent 需要持续学习用户习惯和环境知识,此研究提供了安全增量学习的方法论基础
  • 微调工具链改进:CoreML、MNN、TensorFlow Lite 等端侧推理框架应内置自蒸馏支持,降低端侧安全微调的门槛

关联

  • [[lcsb-finetuning-ondevice]] — LCSB 通过层循环选择性反向传播实现内存高效的端侧微调,本文的自蒸馏可与之结合
  • [[pAirZero-federated-finetuning]] — pAirZero 的联邦微调场景中,客户端本地 SFT 同样面临遗忘问题
  • [[pairzero-edge-llm-finetuning]] — 边缘 LLM 微调的内存优化方案,本文的自蒸馏可作为额外的稳定性层
  • [[biotrain-ondevice-finetuning-mcu]] — MCU 端微调的资源约束更极端,遗忘问题更突出
  • [[subliminal-transfer-agent-distillation]] — 蒸馏中的不安全行为传递,与本文的自蒸馏机制形成互补视角
  • [[amc-adaptive-memory-crystallization]] — 自适应记忆结晶化的持续学习框架,本文的事实遗忘分析为其提供了理论基础