跳转至

type: concept tags: [推理, Chain-of-Thought, LLM, 认知科学, 隐式推理, reasoning] related: [[agent-persistent-identity]], [[clawmobile-agentic]], [[memp-agent-procedural-memory]] sources: - url: https://arxiv.org/abs/2604.15726 title: "LLM Reasoning Is Latent, Not the Chain of Thought" date: 2026-04-21 reliability: high created: 2026-04-21 updated: 2026-04-21


LLM 推理是隐式的,不是 Chain-of-Thought

Chain-of-Thought(CoT)不是推理本身,而是推理的"外部表现"。LLM 的真正推理发生在隐层表示的隐空间中,而非输出的文本 token 序列。这一发现对理解 Agent 的推理能力和限制有深远意义。

核心问题

长期以来,社区对 LLM 推理能力的理解存在一个根本误解:

  1. CoT ≠ 推理:我们通常认为"让模型一步步写出推理过程"就等于"让模型推理"
  2. 实际上 CoT 只是输出格式:模型可能在输出第一个 token 之前就已经在隐空间中完成了推理
  3. CoT 甚至可能有害:强制输出中间推理步骤有时会干扰隐空间中的已有推理结果

方法/架构

作者通过多组实验揭示了隐式推理的存在:

  1. 隐表示探测(Probing):训练线性探测器从中间层隐状态预测最终答案,发现无需输出任何 CoT token 即可高准确率预测
  2. CoT 消融实验:在推理过程中随机丢弃 CoT token,发现对最终答案的影响远小于预期
  3. 推理深度分析:复杂推理任务的隐空间计算主要发生在中间到深层,而非输出层
  4. 与人类认知的对比:类比人类的"顿悟"(Aha moment)——推理在意识层面完成,语言只是事后描述

实验结果

  • 在 GSM8K、MATH 等数学推理基准上,仅用第 12-24 层的隐状态即可达到最终答案 85-92% 的准确率
  • CoT token 对隐表示的修正幅度平均仅 3-8%,远小于预期
  • 在需要多步推理的复杂任务上,隐式推理的比例更高(推理越复杂,CoT 越"多余")

关键洞察

  1. 推理是计算,不是文本生成:LLM 的推理过程本质上是矩阵运算在隐空间中的变换,CoT 只是这个过程的文本投影
  2. CoT 的价值在于"约束"而非"促进":CoT 的真正作用是约束输出空间、减少幻觉,而非帮助模型推理
  3. 对 Agent 设计的启示:端侧 Agent 不应过度依赖 CoT 作为推理质量的指标,应关注隐空间表示的质量
  4. 效率优化方向:如果推理主要在隐空间完成,可以考虑"隐式推理增强"(不生成 CoT)来减少 token 消耗

为什么重要

  • 对移动端 LLM 推理:减少不必要的 CoT 输出可显著降低延迟和功耗——在 [[on-device-inference-memory-pressure]] 场景下每减少一个 token 都有意义
  • 对 Agent 架构设计:理解推理的真正位置有助于设计更高效的 Agent 推理流程
  • 对模型评估:不能仅通过 CoT 输出质量来判断模型推理能力

关联

  • [[agent-persistent-identity]] — Agent 推理能力的持续性
  • [[clawmobile-agentic]] — 移动端 Agent 的推理架构
  • [[memp-agent-procedural-memory]] — Agent 从推理经验中学习