跳转至

Mela: Test-Time Memory Consolidation based on Transformation Hypothesis

论文信息

  • arXiv ID: 2605.10537
  • 发表日期: 2026-05-11
  • 作者: Lungchuan Chen et al.
  • 方向: 记忆整合 / 测试时学习
  • 开源: 待确认

摘要(英译中)

记忆整合是将短暂经验转化为稳定、结构化表征的过程,是人脑的基本组织原则,但在现代序列模型中仍未被充分探索为设计原则。

作者借鉴成熟的神经科学记忆整合理论和跨频耦合理论,提出层次记忆模块(HMM),由两个以不同更新频率运作的功能不同子模块组成。受转换假说启发,低频子模块产生捕获抽象、概略知识的高级表征,高频子模块产生保留更丰富情景细节的细粒度表征。最终记忆输出根据上下文动态重建为两种表征的组合,类似于人类记忆提取的重构性质。

作者将 HMM 集成到基于 Transformer 的语言解码器中,形成 Mela,一种在测试时执行在线记忆整合的记忆增强语言模型。为进一步利用 HMM 产生的多粒度记忆表征,引入 MemStack 方法,将不同级别的记忆特征分布到解码器的早期层中,而不引入额外 token。语言建模实验表明,Mela 在所有模型规模上均优于 Transformer 基线。此外,在预训练上下文长度固定为 4K 的情况下,Mela 在显著更长的上下文中保持性能,而 Transformer 基线则迅速退化。

核心贡献

  1. HMM 架构:双频(低频/高频)子模块分别捕获抽象gist知识和情景细节
  2. 转换假说启发:模拟人脑记忆整合机制,实现上下文依赖的记忆重建
  3. MemStack 方法:将多粒度记忆特征分布到解码器早期层,无需额外 token
  4. 超长上下文:在超出预训练 4K 长度时保持性能,解决 Transformer 的上下文退化问题
  5. 测试时整合:在线记忆整合,无需微调或额外训练

关键洞察

最终记忆输出根据上下文动态重建为抽象表征与细粒度表征的组合,类似于人类记忆提取的重构性质。

记忆不是被动存储,而是主动重建。高频子模块保留细节,低频子模块捕获概要,两者根据检索上下文动态融合。

为什么重要

  • 神经科学桥接:首次将人脑记忆整合机制系统性地引入序列模型设计
  • 上下文延伸:解决预训练上下文窗口限制,在测试时可外推到更长上下文
  • 无额外开销:MemStack 不引入额外 token,计算开销可控

与端侧/移动端的相关性

  • 测试时整合适合持续运行的端侧应用
  • 无需存储完整经验,只保留整合后的表征
  • 双重频率机制允许根据资源状况调节记忆细节层次

参考文献

  • 原论文: https://arxiv.org/abs/2605.10537