跳转至

Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks

论文信息

  • arXiv ID: 2604.11610
  • 作者: Yuqing Yang, Tengxiao Liu, Wang Bill Zhu, Taiwei Shi, Linxin Song
  • 发表日期: 2026-04-13
  • 方向: 记忆提取、记忆利用
  • 代码: 未公开

摘要(翻译)

随着基于 LLM 的助手变得持久化和个性化,它们必须从过去的对话中提取和保留有用信息作为记忆。然而,值得记住的信息类型在不同任务间差异很大。

本文形式化异质记忆提取任务,并引入 BEHEMOTH 基准——重新利用涵盖个性化、问题解决和智能体任务的 18 个现有数据集,使用下游效用驱动的指标进行系统性评估。

我们的实证分析确认:没有单一静态提取提示在所有任务类别上占主导地位,且现有的为同质分布设计的自我演化提示优化框架在训练任务异质时退化。

为解决此问题,我们提出 CluE,一种基于聚类的自我演化策略,将训练样本按提取场景聚类,独立分析每个聚类,并综合跨聚类洞察来更新提取提示。BEHEMOTH 上的实验表明,CluE 在异质任务上有效泛化(相对提升 +9.04%),持续优于先前的自我演化框架。

核心贡献

1. 异质记忆提取任务形式化

不同任务需要提取的记忆类型差异巨大:

任务类型 记忆需求
个性化 用户偏好、习惯、背景
问题解决 调试经验、解决方案模式
智能体任务 工具使用模式、任务策略

没有单一提示能胜任所有场景。

2. BEHEMOTH 基准

18 个数据集的重新标注和整合: - 涵盖三种任务类型 - 下游效用驱动评估(而非简单的提取准确率) - 系统性覆盖异质性维度

3. CluE 策略

三步聚类自我演化

  1. 聚类:将训练样本按提取场景分组
  2. 独立分析:对每个聚类独立优化提取提示
  3. 跨聚类综合:从各聚类提取通用模式,更新主提示

这种方法既捕捉了场景特异性,又保持了跨场景泛化能力。

实验结果

  • CluE 在 BEHEMOTH 上相对提升 +9.04%
  • 持续优于先前的自我演化框架
  • 在异质任务上展现出强泛化能力

为什么重要

BEHEMOTH 和 CluE 的贡献:

  1. 任务异质性的系统性研究:首次指出记忆提取需求的任务差异
  2. 基准驱动的方法论:通过基准揭示问题,再通过基准验证解决方案
  3. 聚类策略的有效性:证明场景分组优化比全局优化更有效

与端侧/移动端相关性

  1. 个性化记忆提取:移动端 Agent 最需要针对用户个体的异质记忆提取
  2. 本地优化潜力:CluE 的聚类策略适合在设备上本地调优
  3. 持续自我优化:端侧 Agent 可以随着使用持续优化提取策略