跳转至

Response-Aware User Memory Selection for LLM Personalization

论文基本信息

  • 作者: Jillian Fisher, Jennifer Neville, Chan Young Park
  • 机构: Purdue University, Samsung AI
  • 发表日期: 2026-04-15
  • 开源代码: https://github.com/jfisher52/Response_Utility_Optimized_Memory_Selection

一句话总结

RUMS (Response-Utility optimization for Memory Selection) 通过互信息最大化选择用户记忆项,比基于语义相似性的方法更符合人类选择偏好,计算成本降低 95%。

摘要(翻译)

在大型语言模型 (LLM) 中实现个性化的常用方法是在推理时将部分用户记忆纳入提示以引导模型生成。现有方法主要使用用户记忆项与输入查询之间的相似性来选择这些子集,但忽视了这些特征如何实际影响模型的响应分布。

本文提出 RUMS (Response-Utility optimization for Memory Selection),一种通过测量记忆子集与模型输出之间的互信息来选择用户记忆项的方法。该方法识别能减少响应不确定性并超越语义相似性的记忆项。

实验证明,这种信息论基础实现了比当前最优方法更符合人类选择偏好的用户记忆选择(即使模型规模大 400 倍)。此外,RUMS 选择的记忆项在响应质量上优于现有方法,同时计算成本降低高达 95%。

核心贡献

1. 从语义相似性到响应效用

传统方法(基于 embedding 相似性)的局限: - 只考虑记忆与查询的表面匹配 - 不考虑记忆如何影响模型实际响应 - 可能选择语义相关但实际上引入不确定性的记忆

RUMS 的核心洞察:好的记忆项应该减少模型对查询的响应不确定性

2. 互信息最大化框架

RUMS 目标函数:

$$\text{argmax}_{S \subseteq M} I(X_S; Y | Q)$$

其中: - $S$ 是选中的记忆子集 - $M$ 是全部用户记忆 - $Q$ 是查询 - $Y$ 是模型输出 - $I(X_S; Y | Q)$ 是给定查询后,选中记忆与输出之间的条件互信息

这直接优化"记忆如何减少输出不确定性"。

3. 高效计算

通过以下技术实现 95% 计算成本降低: - 记忆项评分而非联合优化 - 贪心选择(而非暴力枚举) - 轻量级代理模型估计互信息

关键方法细节

记忆选择流程

  1. 候选生成:基于简单的词匹配快速筛除明显无关的记忆
  2. 效用评分:对每个候选记忆项,估算其对输出的条件互信息
  3. 贪心选择:迭代选择效用最高的记忆项,直到达到预算
  4. 响应生成:将选中记忆纳入 prompt,生成响应

互信息估计

直接计算 $I(X_S; Y | Q)$ 需要访问模型参数,RUMS 使用: - 代理模型(小模型)估计条件分布 - 蒙特卡洛采样近似互信息 - 课程学习逐步训练代理

为什么重要

个性化的核心问题

用户记忆是 LLM 个性化的关键输入,但: - 记忆总量可能超出 context 窗口 - 引入过多记忆反而降低响应质量 - 选择性记忆至关重要

超越"找最相关的"

本文揭示了记忆选择的新维度: - 语义相关 ≠ 实际有用 - 需要考虑对模型输出的影响 - 这与人类选择记忆的方式一致(考虑记忆如何帮助表达)

与移动端/端侧的相关性

极高计算效率

  • 95% 计算成本降低使端侧部署可行
  • 不需要重排所有记忆项
  • 适合资源受限的移动设备

延迟敏感场景

实时个性化响应(聊天、助手)需要快速记忆选择: - 推理时延迟必须低 - 不能用重排+LLM评估的昂贵流程

隐私保护

  • 记忆保留在本地设备
  • 选择过程不需要上传记忆到服务器
  • 符合端侧隐私要求

实验结果

人类偏好对齐

  • RUMS 选择的记忆与人类判断一致性更高
  • 优于基于 embedding 相似性的方法
  • 在 400x 更大模型上仍保持优势

计算效率

方法 记忆选择成本(相对) 响应质量
暴力枚举 100% 基准
RUMS ~5% 相当或更好

响应质量

在多项个性化任务上,RUMS 选择的记忆产生更高质量响应。

参考文献

  • 论文主页: https://arxiv.org/abs/2604.14473
  • 开源代码: https://github.com/jfisher52/Response_Utility_Optimized_Memory_Selection
  • Authors: Jillian Fisher, Jennifer Neville, Chan Young Park (Purdue University, Samsung AI)