跳转至

Ask Only When Needed: Proactive Retrieval from Memory and Skills for Experience-Driven Lifelong Agents

论文信息

  • 作者: Yuxuan Cai, Jie Zhou, Qin Chen, Liang He
  • 提交日期: 2026-04-15
  • 方向: 记忆检索 / 主动检索范式

摘要

在线终身学习使Agent能够跨交互积累经验并在长时程任务上持续改进。然而,现有方法通常将过去经验的检索视为被动操作——只在任务初始化时或完成一步后才触发检索。Agent在交互过程中往往无法识别知识差距并主动检索最有用的经验。为解决此问题,本文提出ProactAgent,一个基于主动检索的终身学习框架。

核心机制: 1. 经验增强在线演化(ExpOnEvo):通过策略更新和记忆细化实现持续改进 2. 主动检索地平线维护:基于当前上下文持续预测下一个任务的检索需求 3. 预测失败回退机制:预测错误时回退到反应式检索,保证正确性

核心贡献

  1. 主动检索范式:从被动反应式检索转向主动预测式检索,改变了记忆检索的根本模式
  2. 检索地平线(Retrieval Horizon):Agent持续维护对未来任务的预测,相关记忆在需要时已提前加载
  3. ExpOnEvo框架:统一了策略改进和记忆细化的在线学习
  4. 混合检索策略:主动+反应式互补,最小化平均任务完成延迟

方法详解

检索地平线维护: - 基于当前对话上下文,使用轻量预测器预测下一个任务类型 - 预测器输出任务分布,触发对应记忆的预加载 - 预测置信度低时,提前加载高优先级候选记忆

经验基础(Experience Base): - 结构化存储:任务类型、上下文特征、动作序列、奖励信号 - 相似度索引:基于任务嵌入空间聚类,支持高效最近邻检索 - 动态更新:新任务完成后自动加入经验库

主动-反应式混合检索

if 检索地平线置信度 > threshold:
    主动检索(预加载相关记忆)
else:
    反应式检索(按需查询)

为什么重要

对于lifelong learning场景,主动检索可显著降低任务完成延迟——这是因为LLM推理调用是主要瓶颈,提前加载记忆可减少推理时的检索开销。该范式对资源受限的端侧设备特别有价值。

与端侧/移动端的相关性

  • 高度端侧相关:减少反应式检索的LLM调用次数,对资源受限设备特别有价值
  • 轻量任务预测模型可在端侧高效运行(如小型分类器)
  • 经验基础的增量更新机制适合移动端的持续学习场景
  • 移动Agent的个性化记忆管理(联系人、行程、偏好)可直接受益

实验结果

  • 在长时程交互任务中,主动检索相比纯反应式方法降低平均延迟23%
  • 知识差距识别准确率达87%,显著优于基线
  • 终身学习场景下,ProactAgent在多个任务序列上取得最优性能