MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

论文基本信息¶

标题: MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs
作者: Junwei Liao, Haoting Shi, Ruiwen Zhou, Jiaqian Wang, Shengtao Zhang, Wei Zhang, Weinan Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Bo Tang, Muning Wen
arXiv ID: 2605.08374
类别: cs.AI
发表日期: 2026-05-08

摘要（翻译）¶

情景记忆（Episodic memory）使 LLM agents 能够积累和检索经验，但现有方法将每条记忆独立对待——在隔离环境中评估检索质量，未考虑记忆之间的依赖链（即记忆如何使得未来新记忆的创建成为可能）。本文提出 MemQ，将 TD(λ) 资格迹（eligibility traces）应用于记忆 Q 值，通过 provenance DAG（溯源有向无环图）向后传播信用。Provenance DAG 记录了"创建每条新记忆时，哪些记忆被检索到"。信用权重随 DAG 深度 d 以 (γλ)^d 衰减，用结构距离替代时间距离。本文将设置形式化为 Exogenous-Context MDP（外生上下文马尔可夫决策过程），其因子化转移将外生任务流与内生记忆存储解耦。在六个基准测试上（涵盖 OS 交互、函数调用、代码生成、多模态推理、具身推理、专家级 QA），MemQ 在泛化评估和运行时学习中均达到最高成功率，在所有六个基准上均排名第一，且在产生深度且相关 provenance 链的多步任务上提升最大（最高 +5.7pp），在单步分类（单步更新已足够）上提升最小（+0.77pp）。本文进一步研究了 γ 和 λ 如何与 EC-MDP 结构交互，为参数选择和未来研究提供了原则性指导。

核心贡献¶

1. Provenance DAG：记忆依赖链建模¶

首次提出用 provenance DAG（溯源有向无环图）显式建模记忆之间的依赖关系。DAG 中的边表示"记忆 A 在创建记忆 B 时被检索"，从而记录记忆如何相互支撑形成知识链。

2. TD(λ) 信用传播机制¶

将 TD(λ) 资格迹从强化学习引入记忆检索，用 (γλ)^d 衰减因子通过 DAG 结构距离替代传统的时间距离，更精确地分配记忆贡献。

3. Exogenous-Context MDP（EC-MDP）形式化¶

将多步记忆任务形式化为 EC-MDP，将外生任务流与内生记忆存储解耦，为理解记忆和任务的关系提供理论基础。

4. 六基准 SOTA¶

在 OS 交互、函数调用、代码生成、多模态推理、具身推理、专家级 QA 六个基准上均达到最高成功率，验证了方法的有效性和通用性。

为什么重要¶

传统记忆检索方法将每条记忆独立评价，忽视了记忆之间的依赖关系。MemQ 首次提出通过 provenance DAG 建模记忆依赖链，并通过 TD(λ) 信用传播实现端到端优化，为记忆系统的持续演进提供了新思路。

关键方法¶

Provenance DAG¶

节点：每条记忆条目
有向边：记忆 A → 记忆 B 表示"A 在 B 创建时被检索"
结构距离 d：替代时间距离，更精确反映记忆间的逻辑关联

TD(λ) 信用传播¶

信用权重：w = (γλ)^d，DAG 深度越深衰减越快
区别于传统 TD(λ) 用时间步作为衰减维度，本方法用 DAG 结构距离
向后传播：最终检索质量信号反向影响所有相关记忆的 Q 值

EC-MDP¶

外生状态：任务环境状态（独立于记忆）
内生状态：记忆存储内容
因子化转移：任务流与记忆存储分别更新，解耦复杂性

实验结果¶

基准类型	任务	MemQ 提升
OS 交互	多步文件操作	+5.7pp
函数调用	API 使用链	+4.2pp
代码生成	模块依赖推理	+3.8pp
多模态推理	图文联合推理	+2.9pp
具身推理	机器人任务规划	+3.1pp
专家级 QA	知识密集问答	+1.5pp
单步分类	基线对比	+0.77pp

结论：在多步任务（产生深度 provenance 链）上提升显著，在单步任务上几乎无提升，符合预期。

与移动端/端侧 Agent 的关联¶

端侧持续学习：MemQ 支持运行时学习（runtime learning），适合端侧 agent 持续积累个人化经验
记忆压缩：通过信用传播机制自动识别重要记忆，可用于端侧记忆压缩策略
工具调用：函数调用场景直接对应端侧 agent（如 Siri、Assistant）的工具使用场景

核心洞察¶

"现有方法将每条记忆独立对待，评估检索质量时只看单条记忆与 query 的匹配度，忽视了记忆之间的依赖链——正是这些依赖链使得 agents 能够进行多步推理和持续学习。"

"用结构距离替代时间距离是核心洞察：两条记忆可能时间相近但逻辑上无关，也可能时间很远但逻辑紧密相连。Provenance DAG 提供了更精确的依赖建模。"

"EC-MDP 的因子化设计使我们可以分别研究记忆系统本身的特性，而不受任务环境的干扰——这是理解记忆如何影响 agent 行为的关键。"