What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis¶
论文基本信息¶
- 作者: Xutao Mao, Jinman Zhao, Gerald Penn, Cong Wang
- arXiv: https://arxiv.org/abs/2605.03354
摘要¶
Agent 记忆失败是静默的——LLM-based Agent 可能产生流畅回复,却在实际需要跨 session 提取、保留或检索信息时悄然失败。Write-Manage-Read 循环描述了这些系统的外部流水线,但未揭示内部计算如何实现每个阶段。通过在 Qwen-3 系列(0.6B-14B)和两个记忆框架(mem0 和 A-MEM)上追踪内部特征电路,本文报告三个发现:① 控制先于内容:路由电路在 0.6B 即具有因果活性,而内容电路在 4B 前无检测信号;② 内容组内 Write 和 Read 共享一个作为上下文-接地基板的晚层枢纽;③ 涌现不等于可操控性——内容电路在 4B 可检测但仅在 8B 才可靠可控。特征空间分离使无监督逐操作失败定位成为可能,准确率达 76.2%。
核心贡献¶
- 电路级分析框架: 首次在 LLM 家族和记忆框架上系统追踪内部特征电路
- 控制-内容解耦发现: 路由电路(控制)在 0.6B 即活跃,内容电路在 4B+ 才涌现
- 晚层枢纽: Write 和 Read 共享的上下文-接地基板,跨记忆框架可迁移
- 76.2% 无监督失败定位: 基于特征空间分离实现,无需人工标注
研究背景与问题¶
现有 Agent 记忆研究关注外部行为(检索准确率、任务完成率),但对内部计算机制理解有限。关键问题: - Write、Manage、Read 三个阶段在 LLM 内部如何实现? - 记忆框架(mem0、A-MEM)的差异是否体现在内部电路上? - 模型规模如何影响记忆能力的涌现和可控性? - 如何在无监督情况下诊断静默的记忆失败?
核心方法¶
- 电路追踪(Circuit Tracing): 使用激活 patching 技术追踪 Qwen-3 家族中记忆相关特征的因果路径
- 跨框架对比: 在 mem0 和 A-MEM 两种不同记忆框架上对比内部实现
- 尺度分析: 在 0.6B、1.7B、4B、8B、14B 五个规模上系统测量电路涌现时间
- 失败定位: 利用控制/内容电路的特征空间分离,实现无监督的逐操作失败诊断
关键发现¶
发现一:控制先于内容¶
- 路由电路在 0.6B 规模即具有因果活性,能可靠地判断何时该写入或读取记忆
- 内容电路在 4B 规模前无检测信号,无法可靠地提取或接地具体记忆内容
- 部署风险:小模型(<4B)在路由层面表现合格,但实际记忆提取和接地静默失败
发现二:Write/Read 共享晚层枢纽¶
- Write(写入记忆)和 Read(读取记忆)操作共享同一个晚层神经网络枢纽
- 该枢纽作为上下文-接地基板,已在预训练基础模型中存在
- 记忆框架(mem0、A-MEM)通过在已有基板上招募功能性接地方向来工作
- 该枢纽可在不同记忆框架间迁移
发现三:涌现 ≠ 可操控性¶
- 内容电路在 4B 规模可被检测到(emergence)
- 但仅在 8B 规模才能被可靠操控(steerability)
- 检测和干预有各自的规模阈值,且不相同
为什么重要¶
这是首篇系统揭示 Agent 记忆内部计算机制的研究。对于理解和诊断静默记忆失败、设计更可靠的记忆系统、以及指导端侧记忆框架的模型选择都具有重要意义。
与移动端/端侧相关性¶
对端侧记忆框架的设计和部署有直接指导意义: - 明确指出 <4B 模型存在静默记忆失败风险,对端侧小模型部署有警醒作用 - 失败定位技术(76.2% 准确率)可用于端侧诊断工具 - 跨框架可迁移的枢纽发现,有助于设计更高效的记忆框架