MM-Mem: From Verbatim to Gist — Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck¶
论文基本信息¶
- 作者: Niu Lian, Yuting Wang, Hanshu Yao, Jinpeng Wang, Bin Chen, Yaowei Wang, Min Zhang, Shu-Tao Xia
- arXiv: https://arxiv.org/abs/2603.01455
- 代码: https://github.com/EliSpectre/MM-Mem
摘要¶
虽然多模态大语言模型展示了令人印象深刻的短期推理能力,但它们在长程视频理解上仍有困难,原因在于有限的上下文窗口和静态记忆机制无法匹配人类认知效率。现有范式通常走向两个极端:视觉中心方法通过密集视觉累积产生高延迟和冗余,文本中心方法通过激进字幕化导致细节丢失和幻觉。MM-Mem 提出受模糊痕迹理论启发的金字塔 multimodal 记忆架构,将记忆分层为感官缓冲区、情景流和符号模式,实现从细粒度感知痕迹(字面)到高层语义模式(图式)的渐进蒸馏。此外,论文推导出语义信息瓶颈目标,引入 SIB-GRPO 优化记忆压缩与任务相关信息保留之间的权衡。推理时,设计熵驱动自上而下记忆检索策略。在 4 个基准上的广泛实验确认 MM-Mem 在离线和流式任务上达到最优性能,展示了鲁棒泛化并验证了认知启发记忆组织的有效性。
核心贡献¶
- Pyramidal Multimodal Memory: 感官缓冲区 → 情景流 → 符号模式三层金字塔架构
- Fuzzy-Trace Theory: 模糊痕迹理论启发的记忆分层设计
- Semantic Information Bottleneck: 语义信息瓶颈目标优化压缩-保留权衡
- SIB-GRPO Training: 优化记忆压缩与任务相关信息保留
- Entropy-driven Retrieval: 熵驱动自上而下记忆检索策略
研究背景与问题¶
现有视频 Agent 记忆要么保留太多细节(高延迟)要么丢失太多细节(幻觉)。MM-Mem 从认知科学中寻找答案——人类自然地将字面细节蒸馏为高层图式。
核心方法¶
- Hierarchical Memory Distillation: 从感官缓冲区到情景流到符号模式的分层蒸馏
- Semantic Information Bottleneck: 语义压缩保留任务相关信息
- SIB-GRPO Optimization: 强化学习优化压缩-保留权衡
- Top-down Retrieval: 自上而下的记忆检索,高熵触发详细回忆,低熵触发抽象回忆
- Offline + Streaming: 支持离线批处理和流式推理
为什么重要¶
MM-Mem 将认知科学理论系统性地引入 multimodal 记忆系统。分层蒸馏和语义信息瓶颈为记忆压缩提供了理论指导,对需要处理长视频的 Agent 系统有重要价值。
与移动端/端侧相关性¶
- 移动端长视频处理: 突破移动端上下文限制的长视频记忆方案
- 信息瓶颈理论: 端侧可用信息瓶颈指导记忆压缩
- 认知启发设计: 借鉴人类记忆机制的端侧记忆架构
- 流式处理: 支持移动端实时视频流的增量记忆管理