EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory¶
论文信息¶
- arXiv ID: 2604.27695
- 作者: Yuyang Li, Yime He, Zeyu Zhang, Dong Gong
- 发表日期: 2026-04-30
- 方向: 记忆的检索与利用
- 代码: https://github.com/AIGeeksGroup/EviMem
摘要(翻译)¶
长期对话记忆需要检索分散在多个会话中的证据,但单次检索在时间和多跳问题上失败。现有迭代方法通过生成内容或文档级信号细化查询,但没有系统诊断证据缺口——即当前累积检索集中缺少什么——导致查询细化缺乏目标。
EviMem 结合了: - IRIS(Iterative Retrieval via Insufficiency Signals):通过充分性评估检测证据缺口、诊断缺少的内容、并驱动有针对性的查询细化 - LaceMem(Layered Architecture for Conversational Evidence Memory):支持细粒度缺口诊断的粗到细记忆层次结构
在 LoCoMo 上,EviMem 在时间问题上将 Judge Accuracy 从 73.3% 提升到 81.6%,在多跳问题上从 65.9% 提升到 85.2%,延迟降低 4.5 倍。
核心贡献¶
1. IRIS:证据缺口驱动的迭代检索¶
核心洞察:迭代检索的关键不是生成更多内容,而是诊断还缺什么
IRIS 四步闭环: 1. 充分性评估:判断当前累积证据是否足够回答查询 2. 缺口诊断:如果不足,具体指出缺少什么类型的证据 3. 查询细化:根据缺口生成更有针对性的查询 4. 迭代:重复直到充分或达到最大迭代次数
2. LaceMem:层级对话证据记忆¶
粗到细的三层记忆结构:
| 层级 | 粒度 | 用途 |
|---|---|---|
| 会话层 | 完整会话 | 快速定位相关会话 |
| 片段层 | 会话内片段 | 精确定位相关段落 |
| 证据层 | 单个事实/引用 | 最细粒度的证据提取 |
3. 证据缺口量化¶
EviMem 引入证据覆盖率的量化指标: - 明确计算当前检索集对查询的覆盖率 - 覆盖率 < 阈值时触发迭代 - 诊断结果直接指导查询重写
实验结果¶
| 问题类型 | MIRIX | EviMem | 提升 |
|---|---|---|---|
| 时间推理 | 73.3% | 81.6% | +8.3pp |
| 多跳推理 | 65.9% | 85.2% | +19.3pp |
| 延迟 | 基准 | 0.22x | 4.5x 降低 |
为什么重要¶
EviMem 解决了长期对话记忆检索的一个根本性问题:单次检索无法处理跨会话的复杂查询。
关键贡献: 1. 证据缺口诊断:首次在迭代检索中引入明确的缺口检测,而非盲目生成 2. 多跳推理大幅提升:85.2% 的多跳准确率说明层次结构和迭代策略的有效性 3. 4.5x 延迟降低:高效的实现来自精确的检索而非穷举
与端侧/移动端相关性¶
- 多跳推理能力:移动端 Agent 常需要跨会话推理("上次我提到的那个项目怎么样了")
- 延迟优化:4.5x 延迟降低对移动端用户体验至关重要
- 分层结构:粗到细的层次结构适合移动端的资源分级利用