HingeMem: Boundary Guided Long-Term Memory with Query Adaptive Retrieval for Scalable Dialogues
摘要¶
长期记忆对支持持续性、可持续性和个性化交互的对话系统至关重要。然而,现有方法依赖连续摘要或基于 OpenIE 的图谱构建,配合固定 Top-k 检索,导致查询类型适配性有限且计算开销较高。本文提出 HingeMem,一种边界引导的长期记忆系统,运用事件分割理论通过边界触发的超边构建可解释的索引界面,涵盖四类要素:人、时间、地点和主题。当任一要素发生变化时,HingeMem 划定边界并写入当前片段,从而减少冗余操作并保留显著上下文。HingeMem 还引入查询自适应检索机制,联合决定 (a) 检索什么——确定基于要素索引记忆的条件路由;(b) 检索多少——根据估计的查询类型控制检索深度。在 LLM 规模(0.6B 到生产级)上的 LOCOMO 评测表明,HingeMem 在无需指定查询类别的情况下相对基线提升约 20%,同时将问答 token 成本降低 68%(相比 HippoRAG2)。
核心贡献¶
- 边界触发的超边索引:将事件分割理论 operationalized,构建以人、时间、地点、主题为维度的可解释记忆索引
- 自适应检索深度:根据查询类型动态决定检索范围,而非固定 Top-k
- 计算高效:68% token 成本下降,适合生产环境大规模部署
- 跨模型规模有效:从 0.6B 到 Qwen-Flash 生产级模型均有效
- 理论支撑:基于事件分割理论,记忆边界划分有认知科学依据
为什么重要¶
长期对话记忆面临"什么都记"(成本爆炸)和"只记最近"(丢失重要长期偏好)的矛盾。HingeMem 通过事件边界检测智能地决定何时写入新片段,通过查询自适应检索智能地决定读多少,解决了记忆系统的存储-检索效率难题。其 68% 的 token 成本下降来自精确的记忆切片访问,而非有损的压缩摘要。
与端侧/移动端的相关性¶
- 高效检索:68% token 成本降低,直接降低端侧推理的内存和计算负担
- 可解释索引:四要素(人、时间、地点、主题)索引与移动端场景高度契合(用户位置、日程安排、社交关系)
- 无需重型模型:方法本身轻量,可在端侧运行事件分割和边界检测
- 可扩展至 web 应用:为需要长时间交互记忆的 Web Agent 提供高效记忆基础设施
参考文献¶
- LOCOMO 评测基准
- 相比 HippoRAG2 减少 68% token 成本
- Qwen3-0.6B 到 Qwen-Flash 跨规模验证