跳转至

EngramaBench: Evaluating Long-Term Conversarial Memory with Structured Graph Retrieval

论文信息

  • arXiv ID: 2604.21229
  • 作者: Julian Acuna
  • 发表日期: 2026-04-23
  • 方向: 记忆系统基准评测、图结构记忆
  • 代码: 未公开

摘要(翻译)

大型语言模型助手被期望在许多会话中积累和推理信息。我们引入 EngramaBench,一个围绕五个角色、一百个多会话对话和一百五十个查询的长期对话记忆基准,涵盖事实recall、跨空间整合、时间推理、对抗性拒绝和涌现综合。

我们评估 Engrama(一种图结构记忆系统)与 GPT-4o 全上下文提示和 Mem0(一种开源向量检索记忆系统)。三者使用相同的回答模型(GPT-4o),隔离了记忆架构的效果。

GPT-4o 全上下文达到最高综合分数(0.6186),而 Engrama 全球得分 0.5367,但在跨空间推理上领先全上下文(0.6532 vs 0.6291,n=30)。Mem0 最便宜但明显较弱(0.4809)。

消融揭示了推动 Engrama 跨空间优势的组件以牺牲全球综合分数为代价,暴露了结构化记忆专门化与综合优化之间的系统级张力。

核心贡献

1. EngramaBench 基准

五个角色设计 × 100 个多会话对话 × 150 个查询,覆盖五种能力:

能力类型 描述 评估方式
事实 Recall 直接记忆的事实查询 精确匹配
跨空间整合 整合多个会话的信息 综合准确率
时间推理 "当时发生了什么" 时间一致性
对抗性拒绝 识别不知道的问题 拒绝率
涌现综合 从记忆中发现新见解 人工评估

2. 三系统对比设计

EngramaBench 的核心贡献之一是隔离记忆架构效果的评测设计:

  • 相同回答模型:三者都用 GPT-4o,差异完全来自记忆系统
  • 相同检索结果输入:排除回答模型差异
  • Mem0 对照:代表开源向量检索方案
  • Full-context 对照:代表无限上下文的理想情况

3. 关键发现:结构化 vs 全局优化的张力

消融实验揭示了一个重要洞察: - 图结构记忆在跨空间推理上优于全上下文(0.6532 vs 0.6291) - 但在全球综合分数上落后于全上下文(0.5367 vs 0.6186)

这说明结构化记忆的优势是有代价的:专门化牺牲了通用性。

实验结果

系统 综合分数 跨空间推理 成本效率
GPT-4o Full-context 0.6186 0.6291 最低
Engrama (图结构) 0.5367 0.6532 中等
Mem0 (向量检索) 0.4809 ~0.5 最高

为什么重要

EngramaBench 首次系统评估了结构化图记忆 vs 向量检索 vs 全上下文三种范式的权衡,为记忆系统设计提供了重要参考:

  1. 跨空间推理是图结构的优势:跨会话整合信息正是图结构擅长的
  2. 专门化 vs 通用性的张力:没有完美的记忆架构,选择取决于应用场景
  3. Mem0 的定位:便宜但弱,适合简单场景

与端侧/移动端相关性

  1. Mem0 的成本效率:对移动端资源受限场景有参考价值
  2. Engrama 的专门化:特定场景(如跨空间推理需求高)可以考虑图结构
  3. 基准的评测维度:为移动端记忆系统的选择提供了评测框架