Response-Aware User Memory Selection for LLM Personalization

论文基本信息¶

作者: Jillian Fisher, Jennifer Neville, Chan Young Park
机构: Purdue University, Samsung AI
发表日期: 2026-04-15
开源代码: https://github.com/jfisher52/Response_Utility_Optimized_Memory_Selection

RUMS (Response-Utility optimization for Memory Selection) 通过互信息最大化选择用户记忆项，比基于语义相似性的方法更符合人类选择偏好，计算成本降低 95%。

在大型语言模型 (LLM) 中实现个性化的常用方法是在推理时将部分用户记忆纳入提示以引导模型生成。现有方法主要使用用户记忆项与输入查询之间的相似性来选择这些子集，但忽视了这些特征如何实际影响模型的响应分布。

本文提出 RUMS (Response-Utility optimization for Memory Selection)，一种通过测量记忆子集与模型输出之间的互信息来选择用户记忆项的方法。该方法识别能减少响应不确定性并超越语义相似性的记忆项。

实验证明，这种信息论基础实现了比当前最优方法更符合人类选择偏好的用户记忆选择（即使模型规模大 400 倍）。此外，RUMS 选择的记忆项在响应质量上优于现有方法，同时计算成本降低高达 95%。

传统方法（基于 embedding 相似性）的局限： - 只考虑记忆与查询的表面匹配 - 不考虑记忆如何影响模型实际响应 - 可能选择语义相关但实际上引入不确定性的记忆

RUMS 的核心洞察：好的记忆项应该减少模型对查询的响应不确定性。

RUMS 目标函数：

$$\text{argmax}_{S \subseteq M} I(X_S; Y | Q)$$

其中： - $S$ 是选中的记忆子集 - $M$ 是全部用户记忆 - $Q$ 是查询 - $Y$ 是模型输出 - $I(X_S; Y | Q)$ 是给定查询后，选中记忆与输出之间的条件互信息

这直接优化"记忆如何减少输出不确定性"。

通过以下技术实现 95% 计算成本降低： - 记忆项评分而非联合优化 - 贪心选择（而非暴力枚举） - 轻量级代理模型估计互信息

直接计算 $I(X_S; Y | Q)$ 需要访问模型参数，RUMS 使用： - 代理模型（小模型）估计条件分布 - 蒙特卡洛采样近似互信息 - 课程学习逐步训练代理

用户记忆是 LLM 个性化的关键输入，但： - 记忆总量可能超出 context 窗口 - 引入过多记忆反而降低响应质量 - 选择性记忆至关重要

本文揭示了记忆选择的新维度： - 语义相关 ≠ 实际有用 - 需要考虑对模型输出的影响 - 这与人类选择记忆的方式一致（考虑记忆如何帮助表达）

实时个性化响应（聊天、助手）需要快速记忆选择： - 推理时延迟必须低 - 不能用重排+LLM评估的昂贵流程

方法	记忆选择成本（相对）	响应质量
暴力枚举	100%	基准
RUMS	~5%	相当或更好

在多项个性化任务上，RUMS 选择的记忆产生更高质量响应。

论文主页: https://arxiv.org/abs/2604.14473
开源代码: https://github.com/jfisher52/Response_Utility_Optimized_Memory_Selection
Authors: Jillian Fisher, Jennifer Neville, Chan Young Park (Purdue University, Samsung AI)