跳转至

HiGMem: 层次化 LLM 引导的长期对话 Agent 记忆系统

作者: Shuqi Cao, Jingyi He, Fei Tan 发表: 2026-04-20

摘要

长期对话 LLM Agent 需要记忆系统从历史交互中检索相关信息,但不能向答案阶段输入过多无关上下文。现有的记忆系统(包括层次化的)主要依赖向量相似性进行检索,这会产生膨胀的证据集——添加许多表面相似的对话轮次只会略微提升召回率,却会降低检索精度、增加答案阶段的上下文成本。本文提出 HiGMem(Hierarchical and LLM-Guided Memory System),一个双层"事件-轮次"记忆系统,让 LLM 使用事件摘要作为语义锚点,预测哪些相关轮次值得阅读。这使模型可以先检查高层事件摘要,然后聚焦于少量可能有用的轮次,通过推理提供简洁可靠的证据集,同时避免与向量检索相比过高的检索开销。在 LoCoMo10 基准上,HiGMem 在五个问题类别中的四个上实现了最佳 F1,并将对抗 F1 从 0.54 提升至 0.78,同时检索轮次数量降低了一个数量级。

核心贡献

  1. 双层事件-轮次架构: 事件层(event summary)作为语义锚点,轮次层(turn-level)用于细粒度检索
  2. LLM 引导的检索预测: 让 LLM 决定哪些相关轮次值得检索,而非简单依赖向量相似度排序
  3. 高效证据集构建: 先检视高层事件摘要,再聚焦少量有用轮次,避免膨胀的证据集
  4. 对抗性场景鲁棒: 将对抗 F1 从 0.54 提升至 0.78,表明对噪声注入攻击的抵抗力显著增强

技术细节

问题:向量相似性检索的膨胀问题

  • 现有层次记忆系统仍主要依赖向量相似性
  • 表面相似的对话轮次被大量检索进来,但真正相关的召回增益很小
  • 导致:精度下降 + 上下文成本上升 + 证据集难以检查管理

HiGMem 的双层结构

事件层(Event Summary)
  ├── 事件1: 用户询问旅行计划
  │     ├── 轮次1.1: 询问目的地偏好
  │     ├── 轮次1.2: 推荐日本行程
  │     └── 轮次1.3: 用户确认预算
  └── 事件2: 用户后续修改行程
        ├── 轮次2.1: 改期到秋季
        └── 轮次2.2: 新增签证信息

检索流程

  1. LLM 先检视高层事件摘要,判断哪些事件与当前查询相关
  2. 对相关事件,LLM 预测哪些具体轮次值得深入阅读
  3. 只检索预测为相关的轮次,避免全量向量搜索

为什么重要

HiGMem 解决了长期对话 Agent 的核心痛点:随着对话历史增长,向量检索产生的膨胀证据集会淹没真正相关的信息。通过让 LLM 参与检索决策(而非单纯依赖相似度),HiGMem 实现了更精准的记忆检索,同时将检索轮次降低一个数量级。这对资源受限的端侧部署尤为重要。

与移动端/端侧相关性

高度相关: - 端侧设备上的长期对话 Agent 需要高效记忆检索 - 检索轮次降低一个数量级 → 显著降低计算和内存开销 - 对抗 F1 大幅提升 → 面对用户注入的噪声信息时更稳定

参考文献

  • LoCoMo10 Benchmark
  • A-Mem (对比基线)