What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis¶

论文基本信息¶

作者: Xutao Mao, Jinman Zhao, Gerald Penn, Cong Wang
arXiv: https://arxiv.org/abs/2605.03354

摘要¶

Agent 记忆失败是静默的——LLM-based Agent 可能产生流畅回复，却在实际需要跨 session 提取、保留或检索信息时悄然失败。Write-Manage-Read 循环描述了这些系统的外部流水线，但未揭示内部计算如何实现每个阶段。通过在 Qwen-3 系列（0.6B-14B）和两个记忆框架（mem0 和 A-MEM）上追踪内部特征电路，本文报告三个发现：① 控制先于内容：路由电路在 0.6B 即具有因果活性，而内容电路在 4B 前无检测信号；② 内容组内 Write 和 Read 共享一个作为上下文-接地基板的晚层枢纽；③ 涌现不等于可操控性——内容电路在 4B 可检测但仅在 8B 才可靠可控。特征空间分离使无监督逐操作失败定位成为可能，准确率达 76.2%。

核心贡献¶

电路级分析框架: 首次在 LLM 家族和记忆框架上系统追踪内部特征电路
控制-内容解耦发现: 路由电路（控制）在 0.6B 即活跃，内容电路在 4B+ 才涌现
晚层枢纽: Write 和 Read 共享的上下文-接地基板，跨记忆框架可迁移
76.2% 无监督失败定位: 基于特征空间分离实现，无需人工标注

研究背景与问题¶

现有 Agent 记忆研究关注外部行为（检索准确率、任务完成率），但对内部计算机制理解有限。关键问题： - Write、Manage、Read 三个阶段在 LLM 内部如何实现？ - 记忆框架（mem0、A-MEM）的差异是否体现在内部电路上？ - 模型规模如何影响记忆能力的涌现和可控性？ - 如何在无监督情况下诊断静默的记忆失败？

核心方法¶

电路追踪（Circuit Tracing）: 使用激活 patching 技术追踪 Qwen-3 家族中记忆相关特征的因果路径
跨框架对比: 在 mem0 和 A-MEM 两种不同记忆框架上对比内部实现
尺度分析: 在 0.6B、1.7B、4B、8B、14B 五个规模上系统测量电路涌现时间
失败定位: 利用控制/内容电路的特征空间分离，实现无监督的逐操作失败诊断

关键发现¶

发现一：控制先于内容¶

路由电路在 0.6B 规模即具有因果活性，能可靠地判断何时该写入或读取记忆
内容电路在 4B 规模前无检测信号，无法可靠地提取或接地具体记忆内容
部署风险：小模型（<4B）在路由层面表现合格，但实际记忆提取和接地静默失败

发现二：Write/Read 共享晚层枢纽¶

Write（写入记忆）和 Read（读取记忆）操作共享同一个晚层神经网络枢纽
该枢纽作为上下文-接地基板，已在预训练基础模型中存在
记忆框架（mem0、A-MEM）通过在已有基板上招募功能性接地方向来工作
该枢纽可在不同记忆框架间迁移

发现三：涌现 ≠ 可操控性¶

内容电路在 4B 规模可被检测到（emergence）
但仅在 8B 规模才能被可靠操控（steerability）
检测和干预有各自的规模阈值，且不相同

为什么重要¶

这是首篇系统揭示 Agent 记忆内部计算机制的研究。对于理解和诊断静默记忆失败、设计更可靠的记忆系统、以及指导端侧记忆框架的模型选择都具有重要意义。

与移动端/端侧相关性¶

对端侧记忆框架的设计和部署有直接指导意义： - 明确指出 <4B 模型存在静默记忆失败风险，对端侧小模型部署有警醒作用 - 失败定位技术（76.2% 准确率）可用于端侧诊断工具 - 跨框架可迁移的枢纽发现，有助于设计更高效的记忆框架