Mela: Test-Time Memory Consolidation based on Transformation Hypothesis¶
论文信息¶
- arXiv ID: 2605.10537
- 发表日期: 2026-05-11
- 作者: Lungchuan Chen et al.
- 方向: 记忆整合 / 测试时学习
- 开源: 待确认
摘要(英译中)¶
记忆整合是将短暂经验转化为稳定、结构化表征的过程,是人脑的基本组织原则,但在现代序列模型中仍未被充分探索为设计原则。
作者借鉴成熟的神经科学记忆整合理论和跨频耦合理论,提出层次记忆模块(HMM),由两个以不同更新频率运作的功能不同子模块组成。受转换假说启发,低频子模块产生捕获抽象、概略知识的高级表征,高频子模块产生保留更丰富情景细节的细粒度表征。最终记忆输出根据上下文动态重建为两种表征的组合,类似于人类记忆提取的重构性质。
作者将 HMM 集成到基于 Transformer 的语言解码器中,形成 Mela,一种在测试时执行在线记忆整合的记忆增强语言模型。为进一步利用 HMM 产生的多粒度记忆表征,引入 MemStack 方法,将不同级别的记忆特征分布到解码器的早期层中,而不引入额外 token。语言建模实验表明,Mela 在所有模型规模上均优于 Transformer 基线。此外,在预训练上下文长度固定为 4K 的情况下,Mela 在显著更长的上下文中保持性能,而 Transformer 基线则迅速退化。
核心贡献¶
- HMM 架构:双频(低频/高频)子模块分别捕获抽象gist知识和情景细节
- 转换假说启发:模拟人脑记忆整合机制,实现上下文依赖的记忆重建
- MemStack 方法:将多粒度记忆特征分布到解码器早期层,无需额外 token
- 超长上下文:在超出预训练 4K 长度时保持性能,解决 Transformer 的上下文退化问题
- 测试时整合:在线记忆整合,无需微调或额外训练
关键洞察¶
最终记忆输出根据上下文动态重建为抽象表征与细粒度表征的组合,类似于人类记忆提取的重构性质。
记忆不是被动存储,而是主动重建。高频子模块保留细节,低频子模块捕获概要,两者根据检索上下文动态融合。
为什么重要¶
- 神经科学桥接:首次将人脑记忆整合机制系统性地引入序列模型设计
- 上下文延伸:解决预训练上下文窗口限制,在测试时可外推到更长上下文
- 无额外开销:MemStack 不引入额外 token,计算开销可控
与端侧/移动端的相关性¶
- 测试时整合适合持续运行的端侧应用
- 无需存储完整经验,只保留整合后的表征
- 双重频率机制允许根据资源状况调节记忆细节层次
参考文献¶
- 原论文: https://arxiv.org/abs/2605.10537