EngramaBench: Evaluating Long-Term Conversarial Memory with Structured Graph Retrieval¶

论文信息¶

大型语言模型助手被期望在许多会话中积累和推理信息。我们引入 EngramaBench，一个围绕五个角色、一百个多会话对话和一百五十个查询的长期对话记忆基准，涵盖事实recall、跨空间整合、时间推理、对抗性拒绝和涌现综合。

我们评估 Engrama（一种图结构记忆系统）与 GPT-4o 全上下文提示和 Mem0（一种开源向量检索记忆系统）。三者使用相同的回答模型（GPT-4o），隔离了记忆架构的效果。

GPT-4o 全上下文达到最高综合分数（0.6186），而 Engrama 全球得分 0.5367，但在跨空间推理上领先全上下文（0.6532 vs 0.6291，n=30）。Mem0 最便宜但明显较弱（0.4809）。

消融揭示了推动 Engrama 跨空间优势的组件以牺牲全球综合分数为代价，暴露了结构化记忆专门化与综合优化之间的系统级张力。

五个角色设计 × 100 个多会话对话 × 150 个查询，覆盖五种能力：

EngramaBench 的核心贡献之一是隔离记忆架构效果的评测设计：

消融实验揭示了一个重要洞察： - 图结构记忆在跨空间推理上优于全上下文（0.6532 vs 0.6291） - 但在全球综合分数上落后于全上下文（0.5367 vs 0.6186）

这说明结构化记忆的优势是有代价的：专门化牺牲了通用性。

系统	综合分数	跨空间推理	成本效率
GPT-4o Full-context	0.6186	0.6291	最低
Engrama (图结构)	0.5367	0.6532	中等
Mem0 (向量检索)	0.4809	~0.5	最高

EngramaBench 首次系统评估了结构化图记忆 vs 向量检索 vs 全上下文三种范式的权衡，为记忆系统设计提供了重要参考：