跳转至

TreeMem: 多智能体记忆系统的树状信用分配

作者: Chen Zhang, Di Huang, Haoyu Ma, et al. 发表: 2026-05-06

摘要

记忆系统被广泛用于增强 LLM 的长时序任务能力,通常组织为多智能体管道(构建器—总结器—检索器)。现有基于 RL 的方法存在两个缺陷:对所有智能体统一应用最终下游任务奖励(粗粒度且模糊),或为不同子任务设计特定任务奖励(需要昂贵的标注且难以可靠定义)。本文提出 TreeMem,通过 Monte Carlo 估计从最终奖励中推导各智能体的专属信用,将多智能体管道扩展为树结构,每个智能体的输出扩展为多条后续分支。实验在长时序基准上验证了树状信用分配的有效性。

核心貢獻

  1. 树状信用分配机制: 将多智能体管道(builder—summarizer—retrieval)扩展为树结构,通过 Monte Carlo averaging 估计每个智能体对最终奖励的贡献
  2. 无标注的智能体专属信用: 从最终奖励中自动推导,无需任务特定标注,解决了信用分配模糊性问题
  3. 异质智能体专业化: 各智能体的信用信号同时更新,帮助异质智能体有效专精
  4. 多分支探索: 每个智能体输出扩展为多个后续分支,通过分支采样估计贡献

技術細節

树结构扩展

  • 将传统线性管道(builder→summarizer→retriever)扩展为树状结构
  • 每个智能体输出扩展为多个后续分支
  • 通过分支上的 Monte Carlo 估计计算贡献

信用估计

$$C_i = \frac{1}{N} \sum_{n=1}^{N} R(\tau_i \cup \tau_{-i}^{(n)})$$

其中 $R$ 为最终奖励,$\tau_i$ 为智能体 $i$ 的输出,$\tau_{-i}^{(n)}$ 为第 $n$ 次采样分支。

多智能体同步更新

  • 使用估计的信用信号同时更新所有智能体策略
  • 异质智能体根据各自信用信号专精不同能力

為什麼重要

多智能体记忆系统(如 Mem0、A-MEM)中,信用分配一直是一个难题。统一奖励导致各智能体无法专精,任务特定奖励需要昂贵标注。TreeMem 通过树状结构和 Monte Carlo 方法实现了无需标注的智能体专属信用分配,为多智能体协作优化提供了新范式。

與端側/移動端相關性

  1. 长时序任务增强: 适合移动端需要长期记忆的多步骤任务(如个人助手、健康监测)
  2. 多智能体管道: 适合分布式移动端场景,各智能体负责不同记忆功能(构建、总结、检索)
  3. 无标注信用分配: 减少人工干预,适合自动化移动端部署
  4. 高效长时序基准: 验证了在长时序任务上的改进,对移动端长程对话和任务执行有直接价值
  5. 模块化设计: 各智能体可独立部署到不同端侧设备,通过管道协作