LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG¶

论文基本信息¶

标题: LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG
arXiv ID: 2605.06285
发表日期: 2026-05-07
作者: Yijia Zheng, Marcel Worring
方向: 记忆检索 · Agentic RAG
类别: cs.CL

摘要（原文翻译）¶

单步检索增强生成（RAG）为简单问答任务提供了融合外部信息的有效途径，但在处理复杂问题时表现吃力。Agentic RAG 将单步检索扩展为多步过程——大语言模型（LLM）充当搜索智能体，生成中间思维和子查询，迭代地与检索系统交互。这种迭代过程因自回归生成冗长的思维和子查询而产生大量延迟。为解决这一局限，本文提出 LatentRAG，一个将推理和检索从离散语言空间迁移到连续潜在空间的新框架。与现有显式方法不同，LatentRAG 不生成自然语言思维和子查询，而是在连续潜在空间中进行隐式推理和检索。实验表明，LatentRAG 在保持准确率的同时显著降低了延迟。

核心贡献¶

潜在空间推理：将 Agentic RAG 的自回归语言生成思维改为连续潜在空间中的隐式推理，消除显式子查询的延迟开销
潜在检索机制：在连续空间中进行检索，而非通过显式子查询访问外部知识库
准确率-延迟帕累托最优：在多个基准上实现与现有方法相当的准确率，同时将端到端延迟降低数倍

为什么重要¶

Agentic RAG 是记忆增强 LLM 智能体的核心技术范式——通过多步检索迭代利用外部记忆。但每次迭代生成自然语言思维和子查询的延迟是实际部署的瓶颈。LatentRAG 从根本上重新设计检索交互机制，将延迟降低到单步 RAG 的量级，同时保持多步推理能力。这对端侧部署的记忆系统尤为重要——移动设备上的记忆检索不能承受多次自回归生成的延迟。

与移动端/端侧的相关性¶

高相关性：潜在空间推理避免了移动端 LLM 生成的长延迟，适合在手机/手表等设备上部署记忆检索
内存效率：隐式推理不需要存储中间思维，降低峰值内存占用
端侧 RAG：与 HeRo 等移动端 Agentic RAG 框架互补，可结合使用

参考文献¶

原论文: https://arxiv.org/abs/2605.06285