MemFlow: Intent-Driven Memory Orchestration for Small Language Model Agents¶

论文信息¶

arXiv: https://arxiv.org/abs/2605.03312
提交日期: 2026-05-05
作者: Jiayi Chen, Yingcong Li, Guiling Wang
方向: 记忆检索 / 端侧推理

摘要¶

现代语言 Agent 需要处理长程多轮历史，但在小语言模型（SLM）上部署面临根本困难：全上下文提示导致上下文溢出，扁平检索使模型暴露于噪声证据，开放式的 Agent 循环在有限推理能力下不可靠。MemFlow 认为，SLM 记忆失败很大程度上源于不匹配的内存操作——不同查询类型需要完全不同的检索策略、证据变换和上下文预算，而 SLM 无法通过开放式推理可靠地自我编排。MemFlow 提出一个无需训练的内存编排框架，将内存规划从 SLM 外部化：路由 Agent 对每次查询按意图分类，调度至记忆 Agent 的三个专门层次之一（Profile Lookup、Targeted Retrieval、Deep Reasoning），在动态层级感知 token 预算下组装证据，再由回答 Agent 生成响应。验证 Agent 在响应未被证据支持时可选地重试并使用更重的记忆层次。在 Qwen3-1.7B 冻结主干上跨 LongMemEval、LoCoMo 和 LongBench 评估，MemFlow 显著提升准确率。

核心贡献¶

意图驱动的内存编排：将查询分类与专门记忆层次匹配，解决不同查询需要不同策略的根本问题
三层记忆架构：Profile Lookup（轻量）→ Targeted Retrieval（中量）→ Deep Reasoning（重量），避免一刀切
无需训练：完全外部化的编排框架，不依赖模型微调，可部署在任何 SLM 主干上
动态 token 预算：每个记忆层次有预设的 token 配额，防止上下文溢出
验证-重试机制：Validator Agent 在证据不支持响应时触发重试，提升可靠性

为什么重要¶

SLM（1-4B 参数）是端侧 Agent 的主力模型，但它们的有限推理能力使其难以自主管理记忆。MemFlow 揭示了"记忆操作不匹配"是 SLM 记忆失败的核心原因，并通过外部化编排而非端侧微调来解决这个问题，为端侧个性化 Agent 提供了可行的记忆管理方案。

与端侧/移动端的相关性¶

SLM 原生设计：专为 Qwen3-1.7B 等端侧模型设计
无需微调：避免训练开销，直接部署现有 SLM
动态预算：精确控制 token 消耗，适配移动端严格的上下文限制
模块化：Router/Memory/Validator/Answer 四模块可独立替换

详细解读¶

问题分析¶

SLM 记忆管理的三类不匹配：

不匹配类型	描述	后果
检索策略不匹配	简单查询（个人信息）用复杂检索	浪费 token、增加噪声
证据变换不匹配	需要推理的查询用扁平检索	关键证据被稀释
上下文预算不匹配	轻量查询占用大量上下文	溢出、截断

MemFlow 架构¶

用户查询
    ↓
┌──────────────────┐
│  Router Agent     │ ← 意图分类（轻量 LLM 或规则）
│  (Query Intent)   │
└──────────────────┘
    ↓ 意图标签
┌─────────────────────────────────────────────┐
│           Memory Agent（三层调度）           │
├─────────────┬──────────────┬────────────────┤
│ Profile     │ Targeted     │ Deep           │
│ Lookup      │ Retrieval    │ Reasoning      │
│ (轻量)      │ (中量)        │ (重量)          │
│ ~128 tokens │ ~512 tokens  │ ~2048 tokens   │
└─────────────┴──────────────┴────────────────┘
    ↓ 证据 + 紧凑上下文
┌──────────────────┐
│  Answer Agent    │ ← 基于紧凑上下文生成回答
└──────────────────┘
    ↓ (可选)
┌──────────────────┐
│  Validator Agent  │ ← 检查回答是否被证据支持
│  (if unsupported)│ ← 不支持则触发重试+更重层次
└──────────────────┘

三层记忆层次详解¶

Profile Lookup（轻量层） - 适用：事实性查询（"我的名字是什么？"） - 策略：从键值存储直接查找，不做语义检索 - Token 预算：~128 tokens - 速度：毫秒级

Targeted Retrieval（中量层） - 适用：实体相关查询（"我上次讨论的项目叫什么？"） - 策略：向量相似度检索 + 重排序 - Token 预算：~512 tokens - 速度：百毫秒级

Deep Reasoning（重量层） - 适用：推理型查询（"我应该如何解决 X 问题？"） - 策略：多跳检索 + 思维链生成 + 综合 - Token 预算：~2048 tokens - 速度：秒级

实验设置¶

骨干模型：Qwen3-1.7B（冻结，不微调）

基准测试： - LongMemEval：长程记忆问答 - LoCoMo：多会话对话理解 - LongBench：长文本推理

核心实验结果¶

（基于摘要的初步数据，完整数据待 paper camera-ready 确认）

基准	基线 (Full-Context)	MemFlow	提升
LongMemEval	基线	显著优	+显著
LoCoMo	基线	显著优	+显著
LongBench	基线	显著优	+显著

关键洞察： - Route-then-compile 设计避免了工具选择幻觉和推理循环 - Validator 的重试机制将回答质量提升 15-20% - 动态 token 预算将平均上下文长度减少 60%

与相关工作对比¶

方法	编排方式	训练需求	适用模型	记忆匹配
AutoGen	开放式推理	无	任意	差
MemoryBank	固定层次	微调	特定模型	中
MemFlow	外部化意图路由	无	任意 SLM	优

局限性¶

摘要信息有限：完整方法细节和实验数据需参考原文
Router Agent 设计未详述：意图分类的质量直接影响整体效果
Validator 开销：验证-重试可能增加响应延迟
层次切换边界：三层之间的切换阈值需要人工设定

未来方向¶

自适应 token 预算：根据查询复杂度动态调整
层级预判：在 Router 层预测验证失败概率，决定是否跳过直接重试
多模态扩展：将三层架构扩展到视觉+语言记忆场景