PRISM: Pareto-Efficient Retrieval over Intent-Aware Structured Memory for Long-Horizon Agents
论文基本信息¶
- 标题: PRISM: Pareto-Efficient Retrieval over Intent-Aware Structured Memory for Long-Horizon Agents
- arXiv ID: 2605.12260
- 发表日期: 2026-05-12
- 作者: Jingyi Peng, Zhongwei Wan, Weiting Liu
- 方向: Agent Memory Retrieval / Structured Memory
- 类别: cs.CL
摘要¶
长时域语言智能体积累对话历史的速度远超固定上下文窗口容量,记忆管理对答案准确率和服务成本都至关重要。现有方法要么扩展上下文窗口而不解决检索质量问题,要么在摄入时做重提取(高 token 成本),要么依赖启发式图遍历,在准确率和效率上都留有遗憾。
本文提出 PRISM,一个训练自由的检索侧框架,将长时域记忆视为图结构记忆上的联合检索-压缩问题。PRISM 组合四个正交推理时组件:
- Hierarchical Bundle Search:在类型化关系路径上进行分层束搜索
- Query-Sensitive Edge Costing:与检测到的查询意图对齐遍历成本
- Evidence Compression:将候选束压缩为紧凑答案上下文
- Adaptive Intent Routing:大多数查询路由通过零-LLM 层
通过将检索形式化为类型化路径模板上的最小成本选择,PRISM 在严格上下文预算下呈现正确证据,无需微调或修改摄入流水线。LoCoMo 基准实验表明,PRISM 在小得多的上下文预算下,比所有同类协议基线提供更高的 LLM-judge 准确率。
核心贡献¶
- PRISM 框架:联合检索-压缩,解决准确率与效率的权衡
- 四组件正交设计:分层搜索 + 意图感知成本 + 证据压缩 + 自适应路由
- 零微调:无需训练或修改上游摄入流程,部署友好
- Pareto 最优:占据准确率-上下文-成本前沿的空缺区域
为什么重要¶
记忆检索的核心矛盾是:全面检索成本高、经济检索质量差。PRISM 通过解耦检索(结构化图遍历)和压缩(LLM 端),在严格上下文预算下实现高效高质量答案。
与移动端/端侧相关性¶
- 端侧智能体需要在有限上下文窗口内做记忆检索
- 零微调、推理时组件设计,适合资源受限的端侧部署
- 自适应路由让简单查询绕过 LLM,降低端侧计算负载
参考文献¶
- 原文: https://arxiv.org/abs/2605.12260