Memreranker reasoning aware reranking 2605.06132

title: MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval arXiv: 2605.06132 date: 2026-05-07 tags: [agent-memory, memory-retrieval] reviewer: auto source: arXiv API

摘要¶

在 Agent 记忆系统中，重排模型是连接用户查询与长期记忆的关键桥梁。大多数系统采用"检索-重排"两阶段范式，但通用重排模型依赖语义相似度匹配，缺乏真正的推理能力，导致召回结果语义高度相关却不包含回答问题所需的关键信息。该缺陷在记忆场景中表现为三个具体问题：(1) 相关性分数校准失调，使基于阈值的过滤困难；(2) 面对时间约束、因果推理等复杂查询时排序退化；(3) 模型无法利用对话上下文进行语义消歧。本报告引入 MemReranker，一个基于 Qwen3-Reranker 通过多阶段 LLM 知识蒸馏构建的重排模型系列（0.6B/4B）。多教师成对比较生成校准的软标签，BCE 点态蒸馏建立良好分布的分数，InfoNCE 对比学习增强难样本区分。训练数据结合通用语料与记忆专用多轮对话数据，覆盖时间约束、因果推理和指代消解。在记忆检索基准上，MemReranker-0.6B 大幅超越 BGE-Reranker，并与开源 4B/8B 模型及 GPT-4o-mini 关键指标持平。MemReranker-4B 进一步达到 0.737 MAP，多项指标与 Gemini-3-Flash 持平，同时推理延迟仅为大模型的 10-20%。在金融和医疗垂直领域基准上，模型保留与主流大参数重排器相当的泛化能力。

核心贡献¶

MemReranker 模型系列（0.6B/4B）：首个专门面向 Agent 记忆检索的重排模型，基于 Qwen3-Reranker 微调
多阶段 LLM 知识蒸馏：
多教师成对比较 → 校准软标签
BCE 点态蒸馏 → 良好分布分数
InfoNCE 对比学习 → 难样本增强
记忆专用多轮对话数据：覆盖时间约束、因果推理、指代消解
轻量化推理：0.6B 模型延迟为大模型的 10-20%，适合端侧部署

为什么重要¶

检索-重排是两阶段记忆系统的核心。传统重排模型（如 BGE-Reranker）依赖语义相似度，无法处理复杂查询结构。MemReraner 专门针对 Agent 记忆场景设计，解决了三个长期被忽视的问题： - 分数校准：记忆检索需要精确的置信度阈值 - 复杂查询：时间/因果/指代是 Agent 交互中的高频模式 - 上下文感知：多轮对话中的语义消歧

与端侧/移动端的相关性¶

0.6B 参数规模适合移动端/边缘设备部署
推理延迟仅为大模型的 10-20%，满足实时性要求
端侧个性化记忆检索（不依赖云端）

参考文献¶

Qwen3-Reranker 基座模型
BGE-Reranker 对比基线
GPT-4o-mini、Gemini-3-Flash 闭源对比