Knowledge-Graph Paths as Intermediate Supervision for Self-Evolving Search Agents
摘要¶
Self-evolving search agents reduce reliance on human-written training questions by generating and solving their own search tasks. We build on Search Self-Play (SSP), a representative Proposer and Solver framework in which questions are generated and answered via multi-step search and reasoning. In practice, SSP faces two bottlenecks:
- Proposer 瓶颈:从孤立答案实体构建问题,缺乏关系上下文,早期 self-play 训练产生大量无效/不可验证的问题
- Solver 瓶颈:只接收二元结果奖励(binary outcome reward),丢弃来自部分正确搜索轨迹的有用信号
核心贡献¶
-
KG 路径作为中间监督:将知识图谱路径作为问题构建的 relation context,为 Proposer 提供关系上下文
-
Waypoint Coverage Reward (WCR):为 Solver 提供分级部分信用(graded partial credit),根据其对构造路径上实体的覆盖情况进行奖励,而非简单的二元对/错
-
知识复用:问题构建和解答可以共享重叠的中间实体——构建问题时的 factual bridges 可作为解答问题的近似 waypoints
方法细节¶
问题构建的 KG grounding¶
- LLM-guided KG subgraph extraction 提供关系上下文
- Proposer 基于 KG 子图构建问题,而非孤立实体
Waypoint Coverage Reward (WCR)¶
- 观察到:构造多跳问题和解答问题涉及重叠的中间实体
- 利用这种重叠:WCR 授予不正确轨迹部分信用,基于其对构造路径上实体的覆盖
- 正确轨迹仍获得全奖励
为什么重要¶
这篇论文对 Agent 记忆系统有重要启发:
- KG 路径作为结构化记忆检索结果:Agent 在记忆检索后得到的路径,可以作为后续推理的中间步骤
- 过程奖励(process reward)而非结果奖励(outcome reward):记忆系统应该能够评估"接近正确的轨迹",而非仅判断最终答案
- 自演化 Agent 的记忆积累:随着 Agent 演化,其记忆系统应该从无效路径中学习(类似 WCR 的机制)
实验结果¶
在 7 个 QA 基准和 9 个模型配置上,平均分数在所有配置上都优于标准 SSP,在多跳 QA 任务上提升尤其显著。结果表明 KG 路径可作为轻量级中间监督,无需额外任务特定人工标注或手动标注的过程步骤。
与移动端/端侧相关性¶
- 端侧搜索/导航 Agent 可利用本地 KG 路径作为记忆检索的中间表示
- WCR 机制可用于评估端侧 Agent 的部分正确性,对用户体验很重要
- 轻量 KG 路径可存储在端侧,供离线使用