MemLoRA: Distilling Expert Adapters for On-Device Memory Systems¶

论文基本信息¶

arXiv ID: 2512.04763v1
发表日期: 2025-12-04
作者: Massimo Bini, Ondrej Bohdal, Umberto Michieli, Zeynep Akata, Mete Ozay, Taha Ceritli
方向: On-Device Memory, Memory-Augmented LLMs, Small Language Models
类别: cs.LG, cs.CL, cs.CV

核心摘要¶

Memory-augmented LLMs 在长时间对话中通过存储相关记忆并将其作为上下文融入，保持了显著的一致性。这种基于记忆的个性化在端侧场景中尤为重要——用户可以保持对话和数据的私密性。然而，记忆增强系统通常依赖过大而无法本地部署的 LLMs。虽然小语言模型（SLMs）更适合端侧推理，但性能不足。此外，这些 LLM 系统缺乏原生视觉能力，限制了多模态场景的适用性。本文提出：(i) MemLoRA，一种新型记忆系统，通过为 SLMs 配备专用记忆适配器实现本地部署；(ii) MemLoRA-V，其视觉扩展，集成了小视觉-语言模型（SVLMs）以支持原生视觉理解。MemLoRA 在 LoCoMo 基准上超越 10x 更大的基线模型（如 Gemma2-27B），并达到与 60x 更大模型（如 GPT-OSS-120B）相当的性能。

核心贡献¶

MemLoRA 记忆适配器架构：将记忆操作（知识提取、记忆更新、记忆增强生成）分解为三个独立的 LoRA 适配器
知识蒸馏训练范式：每个适配器独立训练，基于知识蒸馏原则
MemLoRA-V 多模态扩展：集成小视觉-语言模型，支持原生视觉记忆理解
端侧隐私保护：所有记忆操作在本地完成，无需云端依赖

为什么重要¶

端侧记忆系统是实现真正私有化 AI 助手的关键。当前主流的记忆增强方案依赖云端大模型，存在隐私泄露风险和延迟问题。MemLoRA 创新性地将记忆操作本身蒸馏为小型适配器，使得在手机、可穿戴设备等端侧也能运行高质量的记忆系统。这是向"记忆常驻端侧"目标的重要一步。

与端侧/移动端的相关性¶

原生端侧设计：所有记忆操作专为端侧硬件约束设计
隐私优先：对话和数据完全保留在本地，不上传云端
多模态视觉：MemLoRA-V 支持图像记忆的本地处理
性能突破：以 2B 模型超越 27B 模型，以 2B 模型比肩 120B 模型
可穿戴场景：极低资源占用的记忆系统，适合智能手表等设备

关键技术细节¶

三适配器设计¶

MemLoRA 将记忆操作分解为三个独立的 LoRA 适配器：

知识提取适配器（Knowledge Extraction Adapter）
从用户输入中提取需要存储的关键信息
判断什么值得记忆、什么可以遗忘
训练信号：记忆增强生成时对原文的重建质量
记忆更新适配器（Memory Update Adapter）
管理记忆存储的更新和整合
处理记忆冲突、新旧记忆融合
保持记忆一致性和完整性
记忆增强生成适配器（Memory-Augmented Generation Adapter）
给定当前上下文，从记忆库检索相关信息
将记忆内容融入回复生成
保持风格一致性和事实准确性

训练范式¶

用户输入 → 知识提取 → 记忆存储 → 记忆增强生成 → 回复
                        ↑
                   适配器1    适配器2    适配器3

每个适配器独立训练，使用知识蒸馏损失： - 让学生模型（SLM+适配器）的输出分布接近教师模型（LLM） - 适配器专门负责各自对应的记忆操作

性能对比¶

模型	记忆准确率 (LoCoMo)	规模
GPT-OSS-120B	~94%	120B
MemLoRA (Ours)	~94.4%	2B
Gemma2-27B	~85%	27B
基线 SLM	~60%	2B

MemLoRA 以 2B 参数超越 27B 模型，达到与 120B 模型相当的性能。

多模态扩展：MemLoRA-V¶

MemLoRA-V 在 LoCoMo-VQA（视觉问答）任务上的表现：

方法	VQA 准确率	文本记忆准确率
MemLoRA-V (原生视觉)	81.3	91.2
Caption-based 基线	23.7	89.5

基于 Caption 的方法在视觉问题上严重退化，而 MemLoRA-V 实现原生视觉理解，准确率提升 57.6 个百分点。

局限性与未来方向¶

适配器数量有限，复杂记忆场景可能需要更多专用适配器
跨模态知识迁移的效率仍有提升空间
长期记忆的层次化管理机制待进一步研究