MemoryCD: Benchmarking Long-Context User Memory of LLM Agents for Lifelong Cross-Domain Personalization

论文基本信息¶

作者: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu
机构: 上海人工智能实验室 (Shanghai AI Lab), University of Illinois Chicago
发表日期: 2026-03-26
开源代码: 论文未提供开源代码链接

MemoryCD 是首个基于真实用户终身跨域行为的大规模记忆基准，在 12 个领域、14 个 LLM 模型和 6 种记忆方法上揭示现有方法与用户满意度之间存在显著差距。

近年来，大型语言模型的上下文窗口已扩展到百万 token 规模，但记忆评估基准仍局限于短会话合成对话。本文介绍 MemoryCD，这是首个从亚马逊评论数据集的终身真实用户行为中提取的、以用户为中心、跨域的记忆基准。

不同于依赖脚本化 persona 生成合成用户数据的现有记忆数据集，MemoryCD 追踪多年和多个领域的真实用户交互。我们构建了包含 14 个 SOTA LLM 基模型、6 种记忆方法基线、4 个个性化任务、跨越 12 个不同领域的长期记忆评估 pipeline。

我们的分析揭示现有记忆方法在各种领域与用户满意度相去甚远，为跨域终身个性化评估提供了首个测试平台。

4 个个性化任务： - 偏好预测 - 评论摘要 - 产品推荐 - 跨域迁移

实验揭示： - 跨域记忆整合困难：单一领域方法无法泛化 - 长期偏好漂移：用户偏好随时间变化，记忆系统需要捕捉这种动态 - 上下文 vs 记忆：百万 token 上下文窗口不等于有效的长期记忆

没有可靠的基准就无法衡量进展。MemoryCD 提供： - 标准化评估协议 - 多维度指标（准确性、相关性、用户满意度） - 跨域泛化能力测试

真实应用需要： - 跨多年、跨领域积累的用户理解 - 不只是当前会话的上下文 - 主动遗忘旧信息、整合新知识

移动设备是用户行为数据的主要来源： - 购物、浏览、社交等跨应用行为 - 需要在设备上维护用户记忆 - 隐私要求数据不离开设备

移动端应用需要即时响应： - 记忆检索延迟必须低 - 记忆更新不能阻塞主线程 - 需要权衡存储和检索效率

14 个 SOTA LLM： - GPT-4 系列 - Claude 系列 - 开源模型（LLaMA、Mistral 等）

6 种方法： 1. Full context（完整上下文） 2. Semantic retrieval（语义检索） 3. 最近的邻记忆 4. 摘要式记忆 5. 分层记忆 6. 选择性记忆

论文主页: https://arxiv.org/abs/2603.25973
Authors: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu (Shanghai AI Lab, University of Illinois Chicago)