TreeMem: 多智能体记忆系统的树状信用分配¶

作者: Chen Zhang, Di Huang, Haoyu Ma, et al. 发表: 2026-05-06

摘要¶

记忆系统被广泛用于增强 LLM 的长时序任务能力，通常组织为多智能体管道（构建器—总结器—检索器）。现有基于 RL 的方法存在两个缺陷：对所有智能体统一应用最终下游任务奖励（粗粒度且模糊），或为不同子任务设计特定任务奖励（需要昂贵的标注且难以可靠定义）。本文提出 TreeMem，通过 Monte Carlo 估计从最终奖励中推导各智能体的专属信用，将多智能体管道扩展为树结构，每个智能体的输出扩展为多条后续分支。实验在长时序基准上验证了树状信用分配的有效性。

核心貢獻¶

树状信用分配机制: 将多智能体管道（builder—summarizer—retrieval）扩展为树结构，通过 Monte Carlo averaging 估计每个智能体对最终奖励的贡献
无标注的智能体专属信用: 从最终奖励中自动推导，无需任务特定标注，解决了信用分配模糊性问题
异质智能体专业化: 各智能体的信用信号同时更新，帮助异质智能体有效专精
多分支探索: 每个智能体输出扩展为多个后续分支，通过分支采样估计贡献

技術細節¶

树结构扩展¶

将传统线性管道（builder→summarizer→retriever）扩展为树状结构
每个智能体输出扩展为多个后续分支
通过分支上的 Monte Carlo 估计计算贡献

信用估计¶

$$C_i = \frac{1}{N} \sum_{n=1}^{N} R(\tau_i \cup \tau_{-i}^{(n)})$$

其中 $R$ 为最终奖励，$\tau_i$ 为智能体 $i$ 的输出，$\tau_{-i}^{(n)}$ 为第 $n$ 次采样分支。

多智能体同步更新¶

使用估计的信用信号同时更新所有智能体策略
异质智能体根据各自信用信号专精不同能力

為什麼重要¶

多智能体记忆系统（如 Mem0、A-MEM）中，信用分配一直是一个难题。统一奖励导致各智能体无法专精，任务特定奖励需要昂贵标注。TreeMem 通过树状结构和 Monte Carlo 方法实现了无需标注的智能体专属信用分配，为多智能体协作优化提供了新范式。

與端側/移動端相關性¶

长时序任务增强: 适合移动端需要长期记忆的多步骤任务（如个人助手、健康监测）
多智能体管道: 适合分布式移动端场景，各智能体负责不同记忆功能（构建、总结、检索）
无标注信用分配: 减少人工干预，适合自动化移动端部署
高效长时序基准: 验证了在长时序任务上的改进，对移动端长程对话和任务执行有直接价值
模块化设计: 各智能体可独立部署到不同端侧设备，通过管道协作