type: concept tags: [推理可靠性, LLM, 浮点精度, 多Agent, 确定性, 端侧推理] related: [[on-device-vs-cloud-agentic-tool-calling]], [[agent-persistent-identity]], [[long-horizon-task-mirage]] sources: - url: https://arxiv.org/abs/2604.13206 title: "Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models" date: 2026-04-14 reliability: high created: 2026-04-17 updated: 2026-04-17

LLM 数值不稳定性 — 浮点精度引发的不可预测性¶

研究揭示 LLM 的不可预测性根植于浮点表示的有限精度，量化误差在 Transformer 层中传播、放大或消散。在端侧异构硬件上，这一问题尤为突出。

核心问题¶

多 Agent LLM 系统的失败率远超预期：AutoGen 工作流在 23% 的协作任务上无法收敛，MetaGPT 在 31% 的规划任务中产生不可复现输出。这些失败不能归因于算法限制，而是源自浮点运算在异构基础设施上的非确定性。

方法/架构¶

混沌雪崩效应¶

研究发现 Transformer 早期层存在"雪崩效应"——微小扰动触发二元结果： - 快速放大：误差在前几层指数级增长 - 完全衰减：误差被完全吸收

三区间模型¶

区间	条件	行为
稳定区	扰动低于输入依赖阈值	输出恒定不变
混沌区	舍入误差主导	输出发散，不可预测
信号主导区	真实输入变化压过数值噪声	输出由真实输入决定

浮点误差传播追踪¶

追踪浮点舍入误差如何在 Transformer 计算层中传播
在注意力机制和 FFN 层中分别分析误差放大模式
验证跨多个数据集和模型架构的普适性

关键洞察¶

端侧异构硬件放大此问题：手机端 ARM CPU、NPU、DSP 使用不同的浮点实现和精度，同一模型在不同硬件上可能产生不同输出
固定随机种子不解决根本问题：即使固定种子，浮点运算的非确定性仍会导致输出差异
对端侧 Agent 的启示：在端侧部署的 Agent 需要设计容错机制，而非假设确定性执行
量化进一步加剧：模型量化将浮点精度从 FP32/BF16 降至 INT8/INT4，数值不稳定性会更显著

为什么重要¶

端侧推理可靠性的理论基础：理解为什么同一模型在不同手机上给出不同答案
多 Agent 系统的故障模式分析：23% 和 31% 的失败率数字为端侧多 Agent 系统设计提供风险评估参考
量化策略的指导：理解数值不稳定性有助于设计更鲁棒的量化方案
端侧 Agent 容错设计：Agent 需要检测和恢复数值不稳定性导致的异常行为

关联¶

[[on-device-vs-cloud-agentic-tool-calling]] — 端侧工具调用的可靠性受数值不稳定性影响
[[agent-persistent-identity]] — Agent 持久化身份的稳定性受浮点精度约束
[[long-horizon-task-mirage]] — 长程任务失败可能部分源自数值误差累积
[[kv-cache-quantization-ondevice]] — KV 缓存量化会加剧数值不稳定性