跳转至

MemoryCD: Benchmarking Long-Context User Memory of LLM Agents for Lifelong Cross-Domain Personalization

论文基本信息

  • 作者: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu
  • 机构: 上海人工智能实验室 (Shanghai AI Lab), University of Illinois Chicago
  • 发表日期: 2026-03-26
  • 开源代码: 论文未提供开源代码链接

一句话总结

MemoryCD 是首个基于真实用户终身跨域行为的大规模记忆基准,在 12 个领域、14 个 LLM 模型和 6 种记忆方法上揭示现有方法与用户满意度之间存在显著差距。

摘要(翻译)

近年来,大型语言模型的上下文窗口已扩展到百万 token 规模,但记忆评估基准仍局限于短会话合成对话。本文介绍 MemoryCD,这是首个从亚马逊评论数据集的终身真实用户行为中提取的、以用户为中心、跨域的记忆基准。

不同于依赖脚本化 persona 生成合成用户数据的现有记忆数据集,MemoryCD 追踪多年和多个领域的真实用户交互。我们构建了包含 14 个 SOTA LLM 基模型、6 种记忆方法基线、4 个个性化任务、跨越 12 个不同领域的长期记忆评估 pipeline。

我们的分析揭示现有记忆方法在各种领域与用户满意度相去甚远,为跨域终身个性化评估提供了首个测试平台。

核心贡献

1. 真实世界数据构建

  • Amazon Review 数据集:包含多年、多品类真实购买和评论记录
  • 跨域用户轨迹:同一用户在不同领域(电子产品、书籍、服装等)的行为
  • 非脚本化:不是用 persona 模板生成的合成数据

2. 终身记忆评估维度

4 个个性化任务: - 偏好预测 - 评论摘要 - 产品推荐 - 跨域迁移

3. 大规模基准测试

  • 14 个 SOTA LLM 基模型
  • 6 种记忆方法基线
  • 12 个不同领域
  • 多轮交互评估

关键发现

现有方法的差距

实验揭示: - 跨域记忆整合困难:单一领域方法无法泛化 - 长期偏好漂移:用户偏好随时间变化,记忆系统需要捕捉这种动态 - 上下文 vs 记忆:百万 token 上下文窗口不等于有效的长期记忆

跨域个性化挑战

  • 在源领域学到的偏好不一定适用于目标领域
  • 需要跨领域知识迁移机制
  • 简单的记忆检索无法解决

为什么重要

基准的重要性

没有可靠的基准就无法衡量进展。MemoryCD 提供: - 标准化评估协议 - 多维度指标(准确性、相关性、用户满意度) - 跨域泛化能力测试

终身学习的现实需求

真实应用需要: - 跨多年、跨领域积累的用户理解 - 不只是当前会话的上下文 - 主动遗忘旧信息、整合新知识

与现有基准的差异

维度 现有基准 MemoryCD
数据来源 合成/persona 真实用户行为
时间跨度 短会话 多年
领域数 1-2 12
用户数 数十 数千

与移动端/端侧的相关性

端侧个性化需求

移动设备是用户行为数据的主要来源: - 购物、浏览、社交等跨应用行为 - 需要在设备上维护用户记忆 - 隐私要求数据不离开设备

资源受限场景

  • 不是所有用户数据都能上传到云端
  • 需要轻量级记忆表示
  • 需要高效的跨域知识迁移

实时个性化

移动端应用需要即时响应: - 记忆检索延迟必须低 - 记忆更新不能阻塞主线程 - 需要权衡存储和检索效率

实验设置

模型

14 个 SOTA LLM: - GPT-4 系列 - Claude 系列 - 开源模型(LLaMA、Mistral 等)

记忆方法基线

6 种方法: 1. Full context(完整上下文) 2. Semantic retrieval(语义检索) 3. 最近的邻记忆 4. 摘要式记忆 5. 分层记忆 6. 选择性记忆

评估指标

  • 任务准确率
  • 偏好对齐度
  • 检索召回率
  • 跨域迁移率

参考文献

  • 论文主页: https://arxiv.org/abs/2603.25973
  • Authors: Weizhi Zhang, Xiaokai Wei, Wei-Chieh Huang, Zheng Hui, Chen Wang, Michelle Gong, Philip S. Yu (Shanghai AI Lab, University of Illinois Chicago)