MemoryCD: Benchmarking Long-Context User Memory of LLM Agents for Lifelong Cross-Domain Personalization
论文基本信息¶
- 作者: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu
- 机构: 上海人工智能实验室 (Shanghai AI Lab), University of Illinois Chicago
- 发表日期: 2026-03-26
- 开源代码: 论文未提供开源代码链接
一句话总结¶
MemoryCD 是首个基于真实用户终身跨域行为的大规模记忆基准,在 12 个领域、14 个 LLM 模型和 6 种记忆方法上揭示现有方法与用户满意度之间存在显著差距。
摘要(翻译)¶
近年来,大型语言模型的上下文窗口已扩展到百万 token 规模,但记忆评估基准仍局限于短会话合成对话。本文介绍 MemoryCD,这是首个从亚马逊评论数据集的终身真实用户行为中提取的、以用户为中心、跨域的记忆基准。
不同于依赖脚本化 persona 生成合成用户数据的现有记忆数据集,MemoryCD 追踪多年和多个领域的真实用户交互。我们构建了包含 14 个 SOTA LLM 基模型、6 种记忆方法基线、4 个个性化任务、跨越 12 个不同领域的长期记忆评估 pipeline。
我们的分析揭示现有记忆方法在各种领域与用户满意度相去甚远,为跨域终身个性化评估提供了首个测试平台。
核心贡献¶
1. 真实世界数据构建¶
- Amazon Review 数据集:包含多年、多品类真实购买和评论记录
- 跨域用户轨迹:同一用户在不同领域(电子产品、书籍、服装等)的行为
- 非脚本化:不是用 persona 模板生成的合成数据
2. 终身记忆评估维度¶
4 个个性化任务: - 偏好预测 - 评论摘要 - 产品推荐 - 跨域迁移
3. 大规模基准测试¶
- 14 个 SOTA LLM 基模型
- 6 种记忆方法基线
- 12 个不同领域
- 多轮交互评估
关键发现¶
现有方法的差距¶
实验揭示: - 跨域记忆整合困难:单一领域方法无法泛化 - 长期偏好漂移:用户偏好随时间变化,记忆系统需要捕捉这种动态 - 上下文 vs 记忆:百万 token 上下文窗口不等于有效的长期记忆
跨域个性化挑战¶
- 在源领域学到的偏好不一定适用于目标领域
- 需要跨领域知识迁移机制
- 简单的记忆检索无法解决
为什么重要¶
基准的重要性¶
没有可靠的基准就无法衡量进展。MemoryCD 提供: - 标准化评估协议 - 多维度指标(准确性、相关性、用户满意度) - 跨域泛化能力测试
终身学习的现实需求¶
真实应用需要: - 跨多年、跨领域积累的用户理解 - 不只是当前会话的上下文 - 主动遗忘旧信息、整合新知识
与现有基准的差异¶
| 维度 | 现有基准 | MemoryCD |
|---|---|---|
| 数据来源 | 合成/persona | 真实用户行为 |
| 时间跨度 | 短会话 | 多年 |
| 领域数 | 1-2 | 12 |
| 用户数 | 数十 | 数千 |
与移动端/端侧的相关性¶
端侧个性化需求¶
移动设备是用户行为数据的主要来源: - 购物、浏览、社交等跨应用行为 - 需要在设备上维护用户记忆 - 隐私要求数据不离开设备
资源受限场景¶
- 不是所有用户数据都能上传到云端
- 需要轻量级记忆表示
- 需要高效的跨域知识迁移
实时个性化¶
移动端应用需要即时响应: - 记忆检索延迟必须低 - 记忆更新不能阻塞主线程 - 需要权衡存储和检索效率
实验设置¶
模型¶
14 个 SOTA LLM: - GPT-4 系列 - Claude 系列 - 开源模型(LLaMA、Mistral 等)
记忆方法基线¶
6 种方法: 1. Full context(完整上下文) 2. Semantic retrieval(语义检索) 3. 最近的邻记忆 4. 摘要式记忆 5. 分层记忆 6. 选择性记忆
评估指标¶
- 任务准确率
- 偏好对齐度
- 检索召回率
- 跨域迁移率
参考文献¶
- 论文主页: https://arxiv.org/abs/2603.25973
- Authors: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu (Shanghai AI Lab, University of Illinois Chicago)