跳转至

type: concept tags: [hallucination, llm-reliability, attractor-dynamics, on-device-inference, causal-analysis, 小模型] related: [[sft-hallucinations-continual-learning]], [[sft-hallucinations-self-distillation]], [[llm-numerical-instability]], [[on-device-inference-memory-pressure]], [[edge-optimization]] sources: - url: https://arxiv.org/abs/2604.15400 title: "Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation" date: 2026-04-16 reliability: high created: 2026-04-20 updated: 2026-04-20


幻觉即轨迹承诺:Transformer 生成中的非对称吸引子动力学

因果证据表明,自回归语言模型中的幻觉是一种由非对称吸引子动力学控制的早期轨迹承诺。基于 Qwen2.5-1.5B 的实验,44.3% 的提示产生分叉,幻觉与正确轨迹在第一个生成 token 就开始分化。

核心问题

端侧部署的小型 LLM(1-3B 参数)在实际使用中频繁产生幻觉,但根本原因一直缺乏因果层面的理解。传统观点认为幻觉是"模型记错了",但这项研究表明幻觉更像是一种早期轨道锁定——模型在生成第一个 token 时就已经进入了错误的吸引子盆地,后续生成只是在错误轨道上滑行。

方法/架构

实验设置

  • 模型:Qwen2.5-1.5B(28 层 transformer,d_model=1536)
  • 工具:TransformerLens,Apple Silicon MPS 后端
  • 提示数据集:61 个提示,涵盖 6 类幻觉机制:
  • 事实性(14)、错误前提(14)、虚构(22)、诱导性(3)、多跳推理(4)、数学(4)

核心实验:分叉发现(Bifurcation Discovery)

对每个提示用 τ=0.7 温度采样生成 20 个补全。如果同一提示同时产生正确和幻觉输出,则为"分叉提示"——模型处于决策边界。

关键发现

1. 分叉率因类别差异显著

类别 总数 分叉 总是幻觉 总是正确
错误前提 14 13 (92.9%) 1 0
虚构 22 8 (36.4%) 9 0
事实性 14 4 (28.6%) 5 1
数学 4 2 (50.0%) 0 0
诱导性 3 1 (33.3%) 0 2
多跳推理 4 0 (0.0%) 0 4

2. 轨迹分化发生在第一步:所有 27 个分叉提示中,KL 散度在 step 0 为 0,在 step 1 就跃升到 >1.0,平均分化起始点为 1.1 步。

3. 非对称因果效应(核心贡献): - 幻觉注入正确轨迹 → 87.5% 被污染(layer 20) - 正确注入幻觉轨迹 → 仅 33.3% 恢复(layer 24) - 两者均显著超过基线(10.4%)和随机控制(12.5%) - 窗口注入实验显示:污染只需一步,纠正需要多步持续干预

4. Step-0 预测性:残差状态在 step 0 就能预测每个提示的幻觉率(Pearson r=0.776, p<0.001),无监督聚类识别出 5 个"制度群"。

关键洞察

吸引子盆地假说

幻觉不是"随机错误",而是一个局部稳定的吸引子盆地: - 进入是概率性的且迅速:模型在第一步就随机落入正确或幻觉的吸引子 - 退出需要协调的跨层跨步干预:单点修复无效,必须持续多步校正 - 吸引子在 step 0 就已选定:提示编码中就包含了"会落入哪个盆地"的信息

对端侧部署的深层含义

  1. 小模型更脆弱:1.5B 参数模型已显示 44.3% 分叉率,端侧常用的 1-3B 模型面临更大风险
  2. 温度采样是双刃剑:低温度可能锁定幻觉轨道,高温度增加分叉概率
  3. 检测窗口极窄:由于分化发生在第一步,需要在生成前就干预,而非事后修正
  4. 提示工程的极限:某些错误前提提示 92.9% 分叉率意味着无论提示怎么改,模型仍会在两个吸引子间摆动

为什么重要

这项研究对手机端 AI 生态的意义在于:

  1. 量化了端侧 LLM 的可靠性边界:用 1.5B 模型证明了"吸引子盆地"的存在,这直接关系到手机端 Agent 的决策可靠性
  2. 指出了新的优化方向:与其试图事后检测幻觉(对端侧计算开销大),不如在 step 0 通过激活分析预测并预防
  3. 为端侧模型选择提供依据:如果特定类型提示(错误前提)有 92.9% 分叉率,意味着端侧 Agent 在处理用户模糊指令时的可靠性有结构性限制
  4. 因果分析方法可复用:分叉发现 + 激活注入的方法论可应用于任何端侧模型的可靠性评估

关联

  • [[sft-hallucinations-continual-learning]] — SFT 导致幻觉的另一条因果路径
  • [[sft-hallucinations-self-distillation]] — 自蒸馏修复幻觉的方法
  • [[llm-numerical-instability]] — 浮点精度如何加剧幻觉
  • [[on-device-inference-memory-pressure]] — 端侧推理的内存约束对可靠性的影响
  • [[edge-optimization]] — 端侧推理优化的全局图景
  • [[profinfer-llm-profiling]] — LLM 性能分析方法