How Does Personalized Memory Shape LLM Behavior? Benchmarking Rational Preference Utilization in Personalized Assistants¶
作者: Xueyang Feng, Weinan Gan, Xu Chen, Quanyu Dai 发表: 2026-01-23
摘要¶
LLM 驱动的助手最近集成了记录用户偏好的记忆机制,以提供更个性化和用户对齐的响应。然而,不相关的个性化记忆经常被引入上下文,干扰 LLM 的意图理解。为全面研究个性化的双重效应,本文开发了 RPEval,一个基准测试,包含来自不同领域的现实世界用户偏好数据,用于系统评估个性化记忆对 LLM 行为的影响。
核心貢獻¶
- RPEval 基准: 系统评估个性化记忆对 LLM 行为影响的基准测试
- 偏好相关性分析: 发现不相关记忆会显著干扰 LLM 的意图理解
- 记忆质量评估: 提供记忆相关性过滤的评估框架,帮助判断哪些记忆真正有价值
- 双重效应揭示: 个性化记忆既能提升性能(正确利用偏好),也能降低性能(噪声干扰)
- 理性偏好利用: 首次系统研究"理性"偏好利用——何时及如何有效利用用户偏好
為什麼重要¶
这篇论文揭示了个性化记忆的双刃剑效应:它可以提升用户体验,但处理不当反而会损害性能。对于构建实用化个人助手的研究者,这是重要警示——记忆的数量不等于质量,相关性过滤是关键。
與端側/移動端相關性¶
- 端侧个人助手: 手机/可穿戴助手是个性化记忆的核心应用场景
- 隐私敏感: 端侧记忆存储用户敏感信息,隐私保护是核心
- 上下文窗口受限: 移动端上下文窗口更有限,记忆相关性过滤更关键
- 本地处理: 个性化评估和过滤应在本地执行,避免上传隐私数据