Storage Is Not Memory: A Retrieval-Centered Architecture for Agent Recall¶

作者: Joshua Adler, Guy Zehavi 发表: 2026-05-06 方向: 记忆检索 / 系统架构 / 基准评测

摘要¶

当前 Agent 记忆系统将"提取"（extraction）作为摄取阶段的核心原语——在不知道查询的情况下预先丢弃内容，导致检索时无法恢复关键信息。本文认为这是错误的抽象层次。提出 True Memory，一种六层架构，将系统中心从存储模式转向多阶段检索管道，对原始事件完整保留。完整系统在普通 CPU 上以单个 SQLite 文件运行，无需外部数据库、向量索引、图存储或 GPU。

在 LoCoMo（1540 道题，10 个多会话对话）上，True Memory Pro 达到 93.0% 准确率（3 次平均），对比 Mem0 的 61.4%、Supermemory 的 65.4%、Zep 的约 71%、EverMemOS 的 94.5%（在相同 gpt-4.1-mini 答题模型下）。在 LongMemEval（500 道题）上达到 87.8%。在 BEAM-1M（百万 token 规模，700 道题）上达到 76.6%，超过此前已发表的最佳结果 Hindsight 的 73.9%。56 配置消融实验表明顶级配置家族的性能差距仅为 1.3 个百分点。

核心貢獻¶

六层检索中心架构：将系统中心从"存储模式"转向"多阶段检索管道"，原始事件完整保留verbatim
SQLite 单文件部署：无需外部数据库、向量索引、图存储或 GPU，适合端侧/边缘部署
全面基准对比：在 LoCoMo、LongMemEval、BEAM-1M 三个基准上系统性对比 Mem0、Supermemory、Zep、EverMemOS、Hindsight 等系统
摄取 vs 检索解耦：明确区分"提取时机"与"检索时机"，批评当前系统过早丢弃信息的做法
56 配置消融：覆盖 top-performing 配置家族的 1.3pp 差距，表明特定设计选择对最终性能影响相对有限

技術細節¶

六层架构（True Memory）¶

层次	功能
L1: Event Preservation	原始事件 verbatim 存储，不做预提取
L2: Incremental Indexing	轻量级增量索引，支持高效检索
L3: Multi-Stage Retrieval	多阶段检索管道，逐步精炼结果
L4: Query Decomposition	查询分解，处理复杂多跳问题
L5: Answer Synthesis	答案综合，整合多片段记忆
L6: Verification	答案验证，确保事实一致性

关键洞察¶

"Extraction at ingestion is the wrong primitive" — 在不知道查询的情况下决定丢弃什么，本质上是一个无法正确解答的问题。

当前主流系统（Mem0、Supermemory、Zep）在摄取阶段做信息提取/压缩/摘要，但这些决策依赖于当时的认知，无法预测未来的查询需求。True Memory 的核心转变：将信息保留推迟到检索阶段，让查询上下文指导信息组织。

基准结果汇总¶

基准	True Memory Pro	Mem0	Supermemory	Zep	EverMemOS	Hindsight
LoCoMo (93.0%*)	93.0%	61.4%	65.4%	~71%	94.5%	—
LongMemEval	87.8%	—	—	—	—	—
BEAM-1M	76.6%	—	—	—	—	73.9%

*3-run mean, gpt-4.1-mini answer model matched

為什麼重要¶

架构范式转变：将记忆系统从"存储中心"转向"检索中心"，这是记忆系统设计思想的根本性反思
工程实用性：SQLite 单文件、无 GPU、无外部依赖，使得在移动端/边缘设备部署变得极其简单
基准透明度：对现有商业系统（Mem0、Zep 等）的公平对比，揭示了当前系统的真实能力边界
反直觉发现：Pretrained 系统（Mem0、Supermemory）表现不如 True Memory 的轻量方法，说明摄取策略比模型规模更重要

與端側/移動端相關性¶

SQLite 部署：无需任何外部服务，单文件可在手机、手表、IoT 设备上直接运行
零向量索引依赖：避免了 HNSW/PQ 等复杂向量索引的内存和计算开销
CPU-only：适合移动端有限的算力预算，实测在 commodity CPU 上即可达到 SOTA
多会话对话记忆：直接面向个人助手应用场景，需要跨会话保持上下文一致性

参考文献¶

Mem0: https://mem0.dev
Supermemory: https://supermemory.ai
Zep: https://www.zep.com
EverMemOS: prior published system
Hindsight: BEAM-1M prior state-of-the-art (73.9%)
LoCoMo Benchmark: 1540 questions, 10 multi-session conversations
LongMemEval: 500 questions
BEAM-1M: 700 questions at 1-million-token scale