type: concept tags: [fine-tuning, hallucination, continual-learning, on-device, self-distillation, stability-plasticity] related: [[lcsb-finetuning-ondevice]], [[pAirZero-federated-finetuning]], [[pairzero-edge-llm-finetuning]], [[biotrain-ondevice-finetuning-mcu]], [[subliminal-transfer-agent-distillation]], [[amc-adaptive-memory-crystallization]] sources: - url: https://arxiv.org/abs/2604.15574 title: "Why Fine-Tuning Encourages Hallucinations and How to Fix It" date: 2026-04-18 reliability: high created: 2026-04-20 updated: 2026-04-20

SFT 诱导幻觉：微调为何制造幻觉及持续学习修复策略¶

监督微调（SFT）在教模型新事实的同时，会系统性地破坏已有知识——研究发现这是持续学习中的"遗忘"问题，而成熟的持续学习方法可以有效修复。

核心问题¶

当通过 SFT 向 LLM 注入新的事实知识时，模型会对之前已经正确回答的问题开始产生错误答案（Gekhman et al., 2024; Kalai et al., 2025）。这对端侧部署尤为致命：

端侧微调场景：手机上的模型需要通过 SFT 学习用户个性化知识（日历、联系人、偏好），但每次微调都可能"覆盖"预训练中的通用知识
稳定性-可塑性悖论：模型需要"可塑性"来学习新事实，但"稳定性"来保持已有知识——两者在参数更新中存在根本矛盾
质量不可预测：微调后模型质量的退化是隐性的——用户无法预知哪些知识被破坏

方法架构¶

1. 问题重构：SFT 幻觉 = 持续学习中的遗忘¶

论文的核心洞察是将 SFT 诱导的幻觉重新定义为持续学习中的事实遗忘（factual forgetting）：

参数更新在引入新任务能力的同时，无意中扭曲了预训练中编码的事实表示
不同参数组在事实存储和任务学习中扮演不同角色（Geva et al., 2021）
冻结特定参数组可以在限制新事实获取的同时让模型学习下游任务

2. 自蒸馏修复（Self-Distillation）¶

论文采用持续学习中的自蒸馏技术：

机制：在训练中途冻结一个"教师"快照，后续训练的学生模型被正则化以保持接近教师的输出分布
关键超参数：
快照 epoch i：在第 1 个 epoch 后冻结教师效果最佳（模型已适配任务格式但尚未发生事实漂移）
蒸馏权重 λ：λ=1 提供最佳稳定性-可塑性平衡
温度 τ：τ=0.5 效果最优
效果：自蒸馏在减少 SFT 诱导幻觉的同时，仍允许有效获取新引入的事实

3. 幻觉机制分析¶

通过合成事实实验，论文发现遗忘对表面形式相似性高度敏感：

实体名称类型	遗忘程度	原因
类名字符串	高	与预训练中已有实体共享表示空间，参数更新时发生干扰
UUID 标识符	低	位于独立的表示空间，不会与已有知识发生冲突

这说明幻觉主要源于局部化干扰（localized interference）——新事实通过共享的表示结构腐蚀已有事实，而非全局容量不足。

实验结果¶

EntityQuestions 基准（主要评测）¶

方法	D_Held 准确率（事实稳定性）	D_Unk 准确率（事实可塑性）	综合表现
标准 SFT	低（大量遗忘）	高	偏差
参数冻结	高（保持知识）	低（抑制学习）	保守
自蒸馏	高	高	最优

超参数消融¶

快照 epoch 0：D_Unk 获取显著减慢，D_Held 最低——教师约束在任务适配之前的参数空间
快照 epoch 1：D_Held 最高——模型已适配任务但尚未开始事实漂移
快照 > 1：D_Held 单调递减——持续的事实漂移
λ=0.1/0.5：D_Unk 快速获取但 D_Held 退化严重

关键洞察¶

微调幻觉不是 bug 而是 feature：这是 SGD 优化动态的必然产物——只要参数更新存在，就会影响已编码的知识。问题不是"是否发生遗忘"，而是"如何管理遗忘"
表面形式是关键：当微调数据中的实体与预训练实体在表示空间中邻近时，干扰最大。这对端侧个性化微调有直接指导意义——用户数据中的实体（人名、地名）很可能与预训练知识重叠
自蒸馏是最简方案：不需要外部数据或复杂的正则化——仅需在训练中途保存一个快照并添加蒸馏损失。计算开销约为标准 SFT 的 1.5x，但显著提升事实稳定性
对端侧微调的启示：
端侧 SFT 应始终配合自蒸馏，而非裸 SFT
微调数据的实体命名应尽量避免与通用知识重叠
可以通过冻结底层参数（事实存储层）+ 自蒸馏来实现安全的端侧个性化

为什么重要¶

这篇论文对手机端 AI 生态有直接且深远的影响：

端侧个性化微调的安全性：各大厂商（Apple Intelligence、Google AI Core、小米 HyperAI）都在探索端侧模型个性化。此研究表明裸 SFT 会系统性破坏模型能力，自蒸馏是必要的安全措施
SLM 可靠性：小型语言模型（Gemma、Qwen Small 等）在端侧微调时容量更小，遗忘问题更严重——自蒸馏对 SLM 的价值比 LLM 更大
Agent 系统的知识更新：端侧 Agent 需要持续学习用户习惯和环境知识，此研究提供了安全增量学习的方法论基础
微调工具链改进：CoreML、MNN、TensorFlow Lite 等端侧推理框架应内置自蒸馏支持，降低端侧安全微调的门槛

关联¶

[[lcsb-finetuning-ondevice]] — LCSB 通过层循环选择性反向传播实现内存高效的端侧微调，本文的自蒸馏可与之结合
[[pAirZero-federated-finetuning]] — pAirZero 的联邦微调场景中，客户端本地 SFT 同样面临遗忘问题
[[pairzero-edge-llm-finetuning]] — 边缘 LLM 微调的内存优化方案，本文的自蒸馏可作为额外的稳定性层
[[biotrain-ondevice-finetuning-mcu]] — MCU 端微调的资源约束更极端，遗忘问题更突出
[[subliminal-transfer-agent-distillation]] — 蒸馏中的不安全行为传递，与本文的自蒸馏机制形成互补视角
[[amc-adaptive-memory-crystallization]] — 自适应记忆结晶化的持续学习框架，本文的事实遗忘分析为其提供了理论基础