Memreranker reasoning aware reranking 2605.06132
title: MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval arXiv: 2605.06132 date: 2026-05-07 tags: [agent-memory, memory-retrieval] reviewer: auto source: arXiv API
摘要¶
在 Agent 记忆系统中,重排模型是连接用户查询与长期记忆的关键桥梁。大多数系统采用"检索-重排"两阶段范式,但通用重排模型依赖语义相似度匹配,缺乏真正的推理能力,导致召回结果语义高度相关却不包含回答问题所需的关键信息。该缺陷在记忆场景中表现为三个具体问题:(1) 相关性分数校准失调,使基于阈值的过滤困难;(2) 面对时间约束、因果推理等复杂查询时排序退化;(3) 模型无法利用对话上下文进行语义消歧。本报告引入 MemReranker,一个基于 Qwen3-Reranker 通过多阶段 LLM 知识蒸馏构建的重排模型系列(0.6B/4B)。多教师成对比较生成校准的软标签,BCE 点态蒸馏建立良好分布的分数,InfoNCE 对比学习增强难样本区分。训练数据结合通用语料与记忆专用多轮对话数据,覆盖时间约束、因果推理和指代消解。在记忆检索基准上,MemReranker-0.6B 大幅超越 BGE-Reranker,并与开源 4B/8B 模型及 GPT-4o-mini 关键指标持平。MemReranker-4B 进一步达到 0.737 MAP,多项指标与 Gemini-3-Flash 持平,同时推理延迟仅为大模型的 10-20%。在金融和医疗垂直领域基准上,模型保留与主流大参数重排器相当的泛化能力。
核心贡献¶
- MemReranker 模型系列(0.6B/4B):首个专门面向 Agent 记忆检索的重排模型,基于 Qwen3-Reranker 微调
- 多阶段 LLM 知识蒸馏:
- 多教师成对比较 → 校准软标签
- BCE 点态蒸馏 → 良好分布分数
- InfoNCE 对比学习 → 难样本增强
- 记忆专用多轮对话数据:覆盖时间约束、因果推理、指代消解
- 轻量化推理:0.6B 模型延迟为大模型的 10-20%,适合端侧部署
为什么重要¶
检索-重排是两阶段记忆系统的核心。传统重排模型(如 BGE-Reranker)依赖语义相似度,无法处理复杂查询结构。MemReraner 专门针对 Agent 记忆场景设计,解决了三个长期被忽视的问题: - 分数校准:记忆检索需要精确的置信度阈值 - 复杂查询:时间/因果/指代是 Agent 交互中的高频模式 - 上下文感知:多轮对话中的语义消歧
与端侧/移动端的相关性¶
- 0.6B 参数规模适合移动端/边缘设备部署
- 推理延迟仅为大模型的 10-20%,满足实时性要求
- 端侧个性化记忆检索(不依赖云端)
参考文献¶
- Qwen3-Reranker 基座模型
- BGE-Reranker 对比基线
- GPT-4o-mini、Gemini-3-Flash 闭源对比