Ask Only When Needed: Proactive Retrieval from Memory and Skills for Experience-Driven Lifelong Agents

论文信息¶

作者: Yuxuan Cai, Jie Zhou, Qin Chen, Liang He
提交日期: 2026-04-15
方向: 记忆检索 / 主动检索范式

摘要¶

在线终身学习使Agent能够跨交互积累经验并在长时程任务上持续改进。然而，现有方法通常将过去经验的检索视为被动操作——只在任务初始化时或完成一步后才触发检索。Agent在交互过程中往往无法识别知识差距并主动检索最有用的经验。为解决此问题，本文提出ProactAgent，一个基于主动检索的终身学习框架。

核心机制： 1. 经验增强在线演化（ExpOnEvo）：通过策略更新和记忆细化实现持续改进 2. 主动检索地平线维护：基于当前上下文持续预测下一个任务的检索需求 3. 预测失败回退机制：预测错误时回退到反应式检索，保证正确性

核心贡献¶

主动检索范式：从被动反应式检索转向主动预测式检索，改变了记忆检索的根本模式
检索地平线（Retrieval Horizon）：Agent持续维护对未来任务的预测，相关记忆在需要时已提前加载
ExpOnEvo框架：统一了策略改进和记忆细化的在线学习
混合检索策略：主动+反应式互补，最小化平均任务完成延迟

方法详解¶

检索地平线维护： - 基于当前对话上下文，使用轻量预测器预测下一个任务类型 - 预测器输出任务分布，触发对应记忆的预加载 - 预测置信度低时，提前加载高优先级候选记忆

经验基础（Experience Base）： - 结构化存储：任务类型、上下文特征、动作序列、奖励信号 - 相似度索引：基于任务嵌入空间聚类，支持高效最近邻检索 - 动态更新：新任务完成后自动加入经验库

主动-反应式混合检索：

if 检索地平线置信度 > threshold:
    主动检索（预加载相关记忆）
else:
    反应式检索（按需查询）

为什么重要¶

对于lifelong learning场景，主动检索可显著降低任务完成延迟——这是因为LLM推理调用是主要瓶颈，提前加载记忆可减少推理时的检索开销。该范式对资源受限的端侧设备特别有价值。

与端侧/移动端的相关性¶

高度端侧相关：减少反应式检索的LLM调用次数，对资源受限设备特别有价值
轻量任务预测模型可在端侧高效运行（如小型分类器）
经验基础的增量更新机制适合移动端的持续学习场景
移动Agent的个性化记忆管理（联系人、行程、偏好）可直接受益

实验结果¶

在长时程交互任务中，主动检索相比纯反应式方法降低平均延迟23%
知识差距识别准确率达87%，显著优于基线
终身学习场景下，ProactAgent在多个任务序列上取得最优性能