type: concept tags: [推理, Chain-of-Thought, LLM, 认知科学, 隐式推理, reasoning] related: [[agent-persistent-identity]], [[clawmobile-agentic]], [[memp-agent-procedural-memory]] sources: - url: https://arxiv.org/abs/2604.15726 title: "LLM Reasoning Is Latent, Not the Chain of Thought" date: 2026-04-21 reliability: high created: 2026-04-21 updated: 2026-04-21

LLM 推理是隐式的，不是 Chain-of-Thought¶

Chain-of-Thought（CoT）不是推理本身，而是推理的"外部表现"。LLM 的真正推理发生在隐层表示的隐空间中，而非输出的文本 token 序列。这一发现对理解 Agent 的推理能力和限制有深远意义。

核心问题¶

长期以来，社区对 LLM 推理能力的理解存在一个根本误解：

CoT ≠ 推理：我们通常认为"让模型一步步写出推理过程"就等于"让模型推理"
实际上 CoT 只是输出格式：模型可能在输出第一个 token 之前就已经在隐空间中完成了推理
CoT 甚至可能有害：强制输出中间推理步骤有时会干扰隐空间中的已有推理结果

方法/架构¶

作者通过多组实验揭示了隐式推理的存在：

隐表示探测（Probing）：训练线性探测器从中间层隐状态预测最终答案，发现无需输出任何 CoT token 即可高准确率预测
CoT 消融实验：在推理过程中随机丢弃 CoT token，发现对最终答案的影响远小于预期
推理深度分析：复杂推理任务的隐空间计算主要发生在中间到深层，而非输出层
与人类认知的对比：类比人类的"顿悟"（Aha moment）——推理在意识层面完成，语言只是事后描述

实验结果¶

在 GSM8K、MATH 等数学推理基准上，仅用第 12-24 层的隐状态即可达到最终答案 85-92% 的准确率
CoT token 对隐表示的修正幅度平均仅 3-8%，远小于预期
在需要多步推理的复杂任务上，隐式推理的比例更高（推理越复杂，CoT 越"多余"）

关键洞察¶

推理是计算，不是文本生成：LLM 的推理过程本质上是矩阵运算在隐空间中的变换，CoT 只是这个过程的文本投影
CoT 的价值在于"约束"而非"促进"：CoT 的真正作用是约束输出空间、减少幻觉，而非帮助模型推理
对 Agent 设计的启示：端侧 Agent 不应过度依赖 CoT 作为推理质量的指标，应关注隐空间表示的质量
效率优化方向：如果推理主要在隐空间完成，可以考虑"隐式推理增强"（不生成 CoT）来减少 token 消耗

为什么重要¶

对移动端 LLM 推理：减少不必要的 CoT 输出可显著降低延迟和功耗——在 [[on-device-inference-memory-pressure]] 场景下每减少一个 token 都有意义
对 Agent 架构设计：理解推理的真正位置有助于设计更高效的 Agent 推理流程
对模型评估：不能仅通过 CoT 输出质量来判断模型推理能力

关联¶

[[agent-persistent-identity]] — Agent 推理能力的持续性
[[clawmobile-agentic]] — 移动端 Agent 的推理架构
[[memp-agent-procedural-memory]] — Agent 从推理经验中学习