Test-Time Strategies for More Efficient and Accurate Agentic RAG¶

论文基本信息¶

标题: Test-Time Strategies for More Efficient and Accurate Agentic RAG
arXiv ID: 2603.12396
发表日期: 2026-03-12
作者: Brian Zhang, Deepti Guntur, Zhiyang Zuo, Abhinav Sharma, Shreyas Chaudhari, Wenlong Zhao, Franck Dernoncourt, Puneet Mathur, Ryan Rossi, Nedim Lipka
方向: 记忆检索 · Agentic RAG
类别: cs.IR

摘要（原文翻译）¶

检索增强生成（RAG）系统在处理复杂多跳问题时面临挑战，而 Search-R1 等智能体框架通过迭代操作已被提出以应对这些复杂性。然而，此类方法可能引入效率问题，包括重复检索已处理过的信息，以及在当前生成提示中有效上下文检索结果的困难。这些问题可能导致不必要的检索轮次、次优推理、不准确答案和 token 消耗增加。本文研究了对 Search-R1 流水线进行测试时修改，以减轻这些已识别的缺点。具体而言，探索了两个组件及其组合的集成：一个上下文压缩器和一个重放避免机制。

核心贡献¶

上下文压缩器：在每轮检索后将冗余信息压缩，减少重复检索对后续轮的干扰
重放避免机制：检测并跳过已检索过的内容块，避免重复检索开销
组合策略：将两个组件结合，在多跳问答基准上实现准确率提升 + token 消耗降低的双重收益

为什么重要¶

记忆系统在长期运行中容易积累重复/冗余信息，导致检索效率下降。重放问题在持续学习的记忆系统中尤为突出——当新记忆与旧记忆共享实体或事件时，系统可能反复检索同一内容。Test-Time 的压缩和去重策略可在不修改底层模型的情况下显著提升检索效率，对现有记忆系统具有即插即用的价值。

与移动端/端侧的相关性¶

高相关性：减少 token 消耗直接降低移动端内存带宽和计算压力
实时去重：避免重复检索的机制适合资源受限的端侧环境
可插拔：上下文压缩器可作为现有 RAG/Memory 系统的独立模块使用

参考文献¶

原论文: https://arxiv.org/abs/2603.12396