HiGMem: 层次化 LLM 引导的长期对话 Agent 记忆系统¶
作者: Shuqi Cao, Jingyi He, Fei Tan 发表: 2026-04-20
摘要¶
长期对话 LLM Agent 需要记忆系统从历史交互中检索相关信息,但不能向答案阶段输入过多无关上下文。现有的记忆系统(包括层次化的)主要依赖向量相似性进行检索,这会产生膨胀的证据集——添加许多表面相似的对话轮次只会略微提升召回率,却会降低检索精度、增加答案阶段的上下文成本。本文提出 HiGMem(Hierarchical and LLM-Guided Memory System),一个双层"事件-轮次"记忆系统,让 LLM 使用事件摘要作为语义锚点,预测哪些相关轮次值得阅读。这使模型可以先检查高层事件摘要,然后聚焦于少量可能有用的轮次,通过推理提供简洁可靠的证据集,同时避免与向量检索相比过高的检索开销。在 LoCoMo10 基准上,HiGMem 在五个问题类别中的四个上实现了最佳 F1,并将对抗 F1 从 0.54 提升至 0.78,同时检索轮次数量降低了一个数量级。
核心贡献¶
- 双层事件-轮次架构: 事件层(event summary)作为语义锚点,轮次层(turn-level)用于细粒度检索
- LLM 引导的检索预测: 让 LLM 决定哪些相关轮次值得检索,而非简单依赖向量相似度排序
- 高效证据集构建: 先检视高层事件摘要,再聚焦少量有用轮次,避免膨胀的证据集
- 对抗性场景鲁棒: 将对抗 F1 从 0.54 提升至 0.78,表明对噪声注入攻击的抵抗力显著增强
技术细节¶
问题:向量相似性检索的膨胀问题¶
- 现有层次记忆系统仍主要依赖向量相似性
- 表面相似的对话轮次被大量检索进来,但真正相关的召回增益很小
- 导致:精度下降 + 上下文成本上升 + 证据集难以检查管理
HiGMem 的双层结构¶
事件层(Event Summary)
├── 事件1: 用户询问旅行计划
│ ├── 轮次1.1: 询问目的地偏好
│ ├── 轮次1.2: 推荐日本行程
│ └── 轮次1.3: 用户确认预算
└── 事件2: 用户后续修改行程
├── 轮次2.1: 改期到秋季
└── 轮次2.2: 新增签证信息
检索流程¶
- LLM 先检视高层事件摘要,判断哪些事件与当前查询相关
- 对相关事件,LLM 预测哪些具体轮次值得深入阅读
- 只检索预测为相关的轮次,避免全量向量搜索
为什么重要¶
HiGMem 解决了长期对话 Agent 的核心痛点:随着对话历史增长,向量检索产生的膨胀证据集会淹没真正相关的信息。通过让 LLM 参与检索决策(而非单纯依赖相似度),HiGMem 实现了更精准的记忆检索,同时将检索轮次降低一个数量级。这对资源受限的端侧部署尤为重要。
与移动端/端侧相关性¶
高度相关: - 端侧设备上的长期对话 Agent 需要高效记忆检索 - 检索轮次降低一个数量级 → 显著降低计算和内存开销 - 对抗 F1 大幅提升 → 面对用户注入的噪声信息时更稳定
参考文献¶
- LoCoMo10 Benchmark
- A-Mem (对比基线)