Ask Only When Needed: Proactive Retrieval from Memory and Skills for Experience-Driven Lifelong Agents
论文信息¶
- 作者: Yuxuan Cai, Jie Zhou, Qin Chen, Liang He
- 提交日期: 2026-04-15
- 方向: 记忆检索 / 主动检索范式
摘要¶
在线终身学习使Agent能够跨交互积累经验并在长时程任务上持续改进。然而,现有方法通常将过去经验的检索视为被动操作——只在任务初始化时或完成一步后才触发检索。Agent在交互过程中往往无法识别知识差距并主动检索最有用的经验。为解决此问题,本文提出ProactAgent,一个基于主动检索的终身学习框架。
核心机制: 1. 经验增强在线演化(ExpOnEvo):通过策略更新和记忆细化实现持续改进 2. 主动检索地平线维护:基于当前上下文持续预测下一个任务的检索需求 3. 预测失败回退机制:预测错误时回退到反应式检索,保证正确性
核心贡献¶
- 主动检索范式:从被动反应式检索转向主动预测式检索,改变了记忆检索的根本模式
- 检索地平线(Retrieval Horizon):Agent持续维护对未来任务的预测,相关记忆在需要时已提前加载
- ExpOnEvo框架:统一了策略改进和记忆细化的在线学习
- 混合检索策略:主动+反应式互补,最小化平均任务完成延迟
方法详解¶
检索地平线维护: - 基于当前对话上下文,使用轻量预测器预测下一个任务类型 - 预测器输出任务分布,触发对应记忆的预加载 - 预测置信度低时,提前加载高优先级候选记忆
经验基础(Experience Base): - 结构化存储:任务类型、上下文特征、动作序列、奖励信号 - 相似度索引:基于任务嵌入空间聚类,支持高效最近邻检索 - 动态更新:新任务完成后自动加入经验库
主动-反应式混合检索:
if 检索地平线置信度 > threshold:
主动检索(预加载相关记忆)
else:
反应式检索(按需查询)
为什么重要¶
对于lifelong learning场景,主动检索可显著降低任务完成延迟——这是因为LLM推理调用是主要瓶颈,提前加载记忆可减少推理时的检索开销。该范式对资源受限的端侧设备特别有价值。
与端侧/移动端的相关性¶
- 高度端侧相关:减少反应式检索的LLM调用次数,对资源受限设备特别有价值
- 轻量任务预测模型可在端侧高效运行(如小型分类器)
- 经验基础的增量更新机制适合移动端的持续学习场景
- 移动Agent的个性化记忆管理(联系人、行程、偏好)可直接受益
实验结果¶
- 在长时程交互任务中,主动检索相比纯反应式方法降低平均延迟23%
- 知识差距识别准确率达87%,显著优于基线
- 终身学习场景下,ProactAgent在多个任务序列上取得最优性能