HiGMem: 层次化 LLM 引导的长期对话 Agent 记忆系统¶

作者: Shuqi Cao, Jingyi He, Fei Tan 发表: 2026-04-20

摘要¶

长期对话 LLM Agent 需要记忆系统从历史交互中检索相关信息，但不能向答案阶段输入过多无关上下文。现有的记忆系统（包括层次化的）主要依赖向量相似性进行检索，这会产生膨胀的证据集——添加许多表面相似的对话轮次只会略微提升召回率，却会降低检索精度、增加答案阶段的上下文成本。本文提出 HiGMem（Hierarchical and LLM-Guided Memory System），一个双层"事件-轮次"记忆系统，让 LLM 使用事件摘要作为语义锚点，预测哪些相关轮次值得阅读。这使模型可以先检查高层事件摘要，然后聚焦于少量可能有用的轮次，通过推理提供简洁可靠的证据集，同时避免与向量检索相比过高的检索开销。在 LoCoMo10 基准上，HiGMem 在五个问题类别中的四个上实现了最佳 F1，并将对抗 F1 从 0.54 提升至 0.78，同时检索轮次数量降低了一个数量级。

核心贡献¶

双层事件-轮次架构: 事件层（event summary）作为语义锚点，轮次层（turn-level）用于细粒度检索
LLM 引导的检索预测: 让 LLM 决定哪些相关轮次值得检索，而非简单依赖向量相似度排序
高效证据集构建: 先检视高层事件摘要，再聚焦少量有用轮次，避免膨胀的证据集
对抗性场景鲁棒: 将对抗 F1 从 0.54 提升至 0.78，表明对噪声注入攻击的抵抗力显著增强

技术细节¶

问题：向量相似性检索的膨胀问题¶

现有层次记忆系统仍主要依赖向量相似性
表面相似的对话轮次被大量检索进来，但真正相关的召回增益很小
导致：精度下降 + 上下文成本上升 + 证据集难以检查管理

HiGMem 的双层结构¶

事件层（Event Summary）
  ├── 事件1: 用户询问旅行计划
  │     ├── 轮次1.1: 询问目的地偏好
  │     ├── 轮次1.2: 推荐日本行程
  │     └── 轮次1.3: 用户确认预算
  └── 事件2: 用户后续修改行程
        ├── 轮次2.1: 改期到秋季
        └── 轮次2.2: 新增签证信息

检索流程¶

LLM 先检视高层事件摘要，判断哪些事件与当前查询相关
对相关事件，LLM 预测哪些具体轮次值得深入阅读
只检索预测为相关的轮次，避免全量向量搜索

为什么重要¶

HiGMem 解决了长期对话 Agent 的核心痛点：随着对话历史增长，向量检索产生的膨胀证据集会淹没真正相关的信息。通过让 LLM 参与检索决策（而非单纯依赖相似度），HiGMem 实现了更精准的记忆检索，同时将检索轮次降低一个数量级。这对资源受限的端侧部署尤为重要。

与移动端/端侧相关性¶

高度相关： - 端侧设备上的长期对话 Agent 需要高效记忆检索 - 检索轮次降低一个数量级 → 显著降低计算和内存开销 - 对抗 F1 大幅提升 → 面对用户注入的噪声信息时更稳定

参考文献¶

LoCoMo10 Benchmark
A-Mem (对比基线)