HingeMem: Boundary Guided Long-Term Memory with Query Adaptive Retrieval for Scalable Dialogues

摘要¶

长期记忆对支持持续性、可持续性和个性化交互的对话系统至关重要。然而，现有方法依赖连续摘要或基于 OpenIE 的图谱构建，配合固定 Top-k 检索，导致查询类型适配性有限且计算开销较高。本文提出 HingeMem，一种边界引导的长期记忆系统，运用事件分割理论通过边界触发的超边构建可解释的索引界面，涵盖四类要素：人、时间、地点和主题。当任一要素发生变化时，HingeMem 划定边界并写入当前片段，从而减少冗余操作并保留显著上下文。HingeMem 还引入查询自适应检索机制，联合决定 (a) 检索什么——确定基于要素索引记忆的条件路由；(b) 检索多少——根据估计的查询类型控制检索深度。在 LLM 规模（0.6B 到生产级）上的 LOCOMO 评测表明，HingeMem 在无需指定查询类别的情况下相对基线提升约 20%，同时将问答 token 成本降低 68%（相比 HippoRAG2）。

核心贡献¶

边界触发的超边索引：将事件分割理论 operationalized，构建以人、时间、地点、主题为维度的可解释记忆索引
自适应检索深度：根据查询类型动态决定检索范围，而非固定 Top-k
计算高效：68% token 成本下降，适合生产环境大规模部署
跨模型规模有效：从 0.6B 到 Qwen-Flash 生产级模型均有效
理论支撑：基于事件分割理论，记忆边界划分有认知科学依据

为什么重要¶

长期对话记忆面临"什么都记"（成本爆炸）和"只记最近"（丢失重要长期偏好）的矛盾。HingeMem 通过事件边界检测智能地决定何时写入新片段，通过查询自适应检索智能地决定读多少，解决了记忆系统的存储-检索效率难题。其 68% 的 token 成本下降来自精确的记忆切片访问，而非有损的压缩摘要。

与端侧/移动端的相关性¶

高效检索：68% token 成本降低，直接降低端侧推理的内存和计算负担
可解释索引：四要素（人、时间、地点、主题）索引与移动端场景高度契合（用户位置、日程安排、社交关系）
无需重型模型：方法本身轻量，可在端侧运行事件分割和边界检测
可扩展至 web 应用：为需要长时间交互记忆的 Web Agent 提供高效记忆基础设施

参考文献¶

LOCOMO 评测基准
相比 HippoRAG2 减少 68% token 成本
Qwen3-0.6B 到 Qwen-Flash 跨规模验证