EngramaBench: Evaluating Long-Term Conversarial Memory with Structured Graph Retrieval¶
论文信息¶
- arXiv ID: 2604.21229
- 作者: Julian Acuna
- 发表日期: 2026-04-23
- 方向: 记忆系统基准评测、图结构记忆
- 代码: 未公开
摘要(翻译)¶
大型语言模型助手被期望在许多会话中积累和推理信息。我们引入 EngramaBench,一个围绕五个角色、一百个多会话对话和一百五十个查询的长期对话记忆基准,涵盖事实recall、跨空间整合、时间推理、对抗性拒绝和涌现综合。
我们评估 Engrama(一种图结构记忆系统)与 GPT-4o 全上下文提示和 Mem0(一种开源向量检索记忆系统)。三者使用相同的回答模型(GPT-4o),隔离了记忆架构的效果。
GPT-4o 全上下文达到最高综合分数(0.6186),而 Engrama 全球得分 0.5367,但在跨空间推理上领先全上下文(0.6532 vs 0.6291,n=30)。Mem0 最便宜但明显较弱(0.4809)。
消融揭示了推动 Engrama 跨空间优势的组件以牺牲全球综合分数为代价,暴露了结构化记忆专门化与综合优化之间的系统级张力。
核心贡献¶
1. EngramaBench 基准¶
五个角色设计 × 100 个多会话对话 × 150 个查询,覆盖五种能力:
| 能力类型 | 描述 | 评估方式 |
|---|---|---|
| 事实 Recall | 直接记忆的事实查询 | 精确匹配 |
| 跨空间整合 | 整合多个会话的信息 | 综合准确率 |
| 时间推理 | "当时发生了什么" | 时间一致性 |
| 对抗性拒绝 | 识别不知道的问题 | 拒绝率 |
| 涌现综合 | 从记忆中发现新见解 | 人工评估 |
2. 三系统对比设计¶
EngramaBench 的核心贡献之一是隔离记忆架构效果的评测设计:
- 相同回答模型:三者都用 GPT-4o,差异完全来自记忆系统
- 相同检索结果输入:排除回答模型差异
- Mem0 对照:代表开源向量检索方案
- Full-context 对照:代表无限上下文的理想情况
3. 关键发现:结构化 vs 全局优化的张力¶
消融实验揭示了一个重要洞察: - 图结构记忆在跨空间推理上优于全上下文(0.6532 vs 0.6291) - 但在全球综合分数上落后于全上下文(0.5367 vs 0.6186)
这说明结构化记忆的优势是有代价的:专门化牺牲了通用性。
实验结果¶
| 系统 | 综合分数 | 跨空间推理 | 成本效率 |
|---|---|---|---|
| GPT-4o Full-context | 0.6186 | 0.6291 | 最低 |
| Engrama (图结构) | 0.5367 | 0.6532 | 中等 |
| Mem0 (向量检索) | 0.4809 | ~0.5 | 最高 |
为什么重要¶
EngramaBench 首次系统评估了结构化图记忆 vs 向量检索 vs 全上下文三种范式的权衡,为记忆系统设计提供了重要参考:
- 跨空间推理是图结构的优势:跨会话整合信息正是图结构擅长的
- 专门化 vs 通用性的张力:没有完美的记忆架构,选择取决于应用场景
- Mem0 的定位:便宜但弱,适合简单场景
与端侧/移动端相关性¶
- Mem0 的成本效率:对移动端资源受限场景有参考价值
- Engrama 的专门化:特定场景(如跨空间推理需求高)可以考虑图结构
- 基准的评测维度:为移动端记忆系统的选择提供了评测框架