Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks¶

论文信息¶

随着基于 LLM 的助手变得持久化和个性化，它们必须从过去的对话中提取和保留有用信息作为记忆。然而，值得记住的信息类型在不同任务间差异很大。

本文形式化异质记忆提取任务，并引入 BEHEMOTH 基准——重新利用涵盖个性化、问题解决和智能体任务的 18 个现有数据集，使用下游效用驱动的指标进行系统性评估。

我们的实证分析确认：没有单一静态提取提示在所有任务类别上占主导地位，且现有的为同质分布设计的自我演化提示优化框架在训练任务异质时退化。

为解决此问题，我们提出 CluE，一种基于聚类的自我演化策略，将训练样本按提取场景聚类，独立分析每个聚类，并综合跨聚类洞察来更新提取提示。BEHEMOTH 上的实验表明，CluE 在异质任务上有效泛化（相对提升 +9.04%），持续优于先前的自我演化框架。

不同任务需要提取的记忆类型差异巨大：

没有单一提示能胜任所有场景。

18 个数据集的重新标注和整合： - 涵盖三种任务类型 - 下游效用驱动评估（而非简单的提取准确率） - 系统性覆盖异质性维度

三步聚类自我演化：

这种方法既捕捉了场景特异性，又保持了跨场景泛化能力。

BEHEMOTH 和 CluE 的贡献：