Test-Time Strategies for More Efficient and Accurate Agentic RAG¶
论文基本信息¶
- 标题: Test-Time Strategies for More Efficient and Accurate Agentic RAG
- arXiv ID: 2603.12396
- 发表日期: 2026-03-12
- 作者: Brian Zhang, Deepti Guntur, Zhiyang Zuo, Abhinav Sharma, Shreyas Chaudhari, Wenlong Zhao, Franck Dernoncourt, Puneet Mathur, Ryan Rossi, Nedim Lipka
- 方向: 记忆检索 · Agentic RAG
- 类别: cs.IR
摘要(原文翻译)¶
检索增强生成(RAG)系统在处理复杂多跳问题时面临挑战,而 Search-R1 等智能体框架通过迭代操作已被提出以应对这些复杂性。然而,此类方法可能引入效率问题,包括重复检索已处理过的信息,以及在当前生成提示中有效上下文检索结果的困难。这些问题可能导致不必要的检索轮次、次优推理、不准确答案和 token 消耗增加。本文研究了对 Search-R1 流水线进行测试时修改,以减轻这些已识别的缺点。具体而言,探索了两个组件及其组合的集成:一个上下文压缩器和一个重放避免机制。
核心贡献¶
- 上下文压缩器:在每轮检索后将冗余信息压缩,减少重复检索对后续轮的干扰
- 重放避免机制:检测并跳过已检索过的内容块,避免重复检索开销
- 组合策略:将两个组件结合,在多跳问答基准上实现准确率提升 + token 消耗降低的双重收益
为什么重要¶
记忆系统在长期运行中容易积累重复/冗余信息,导致检索效率下降。重放问题在持续学习的记忆系统中尤为突出——当新记忆与旧记忆共享实体或事件时,系统可能反复检索同一内容。Test-Time 的压缩和去重策略可在不修改底层模型的情况下显著提升检索效率,对现有记忆系统具有即插即用的价值。
与移动端/端侧的相关性¶
- 高相关性:减少 token 消耗直接降低移动端内存带宽和计算压力
- 实时去重:避免重复检索的机制适合资源受限的端侧环境
- 可插拔:上下文压缩器可作为现有 RAG/Memory 系统的独立模块使用
参考文献¶
- 原论文: https://arxiv.org/abs/2603.12396