MemRouter: Memory-as-Embedding Routing for Long-Term Conversational Agents
论文信息¶
- 作者: Tianyu Hu, Weikai Lin, Weizhi Zhang, Jing Ma
- 提交日期: 2026-05-01
- 方向: 记忆写入决策 / 记忆路由
摘要¶
长期对话Agent必须决定哪些轮次应存储在外部记忆中,但近期系统依赖自回归LLM生成来做每轮决策。本文提出MemRouter,一个写入端记忆路由器,将记忆准入与下游回答主干解耦,用基于嵌入的路由策略替代逐轮记忆管理解码。
核心设计:MemRouter将每轮与近期上下文一起编码,通过冻结LLM的MLP头投影嵌入向量,生成记忆准入决策——无需为每轮调用解码完整的LLM。
核心贡献¶
- 记忆准入与回答主干解耦:将"是否记忆"决策从LLM生成过程中分离
- 嵌入路由策略:用MLP头投影替代自回归解码,决策效率高
- 冻结LLM + MLP头:无需额外训练记忆准入模型,复用预训练LLM能力
- 显著降低写入开销:消除逐轮LLM调用,延迟大幅下降
方法详解¶
MemRouter架构:
输入: [当前轮, 近期上下文] → LLM编码器 → 嵌入向量 → MLP头 → 记忆准入决策
(冻结) (训练)
决策类型: - 记忆(Store in Memory) - 丢弃(Discard) - 更新(Update,合并到已有记忆)
与现有方法对比: | 方法 | 每轮LLM调用 | 决策质量 | 延迟 | |------|-----------|---------|------| | LLM自回归解码 | 是 | 高 | 高 | | 简单启发式 | 否 | 低 | 低 | | MemRouter | 否 | 高 | 低 |
为什么重要¶
记忆写入决策是记忆系统的关键瓶颈——传统方法需要为每轮调用LLM做决策,开销巨大。MemRouter通过嵌入路由将这个过程压缩为单次前向传播,为端侧实时记忆管理开辟了新路径。
与端侧/移动端的相关性¶
- 高度端侧相关:消除逐轮LLM调用,移动设备可本地运行
- MLP头轻量,可在CPU上高效推理
- 冻结LLM + 轻量MLP头的设计适合移动端部署
- 个人助手的长期记忆管理(联系人偏好、历史交互)