Mela: Test-Time Memory Consolidation based on Transformation Hypothesis¶

论文信息¶

arXiv ID: 2605.10537
发表日期: 2026-05-11
作者: Lungchuan Chen et al.
方向: 记忆整合 / 测试时学习
开源: 待确认

摘要（英译中）¶

记忆整合是将短暂经验转化为稳定、结构化表征的过程，是人脑的基本组织原则，但在现代序列模型中仍未被充分探索为设计原则。

作者借鉴成熟的神经科学记忆整合理论和跨频耦合理论，提出层次记忆模块（HMM），由两个以不同更新频率运作的功能不同子模块组成。受转换假说启发，低频子模块产生捕获抽象、概略知识的高级表征，高频子模块产生保留更丰富情景细节的细粒度表征。最终记忆输出根据上下文动态重建为两种表征的组合，类似于人类记忆提取的重构性质。

作者将 HMM 集成到基于 Transformer 的语言解码器中，形成 Mela，一种在测试时执行在线记忆整合的记忆增强语言模型。为进一步利用 HMM 产生的多粒度记忆表征，引入 MemStack 方法，将不同级别的记忆特征分布到解码器的早期层中，而不引入额外 token。语言建模实验表明，Mela 在所有模型规模上均优于 Transformer 基线。此外，在预训练上下文长度固定为 4K 的情况下，Mela 在显著更长的上下文中保持性能，而 Transformer 基线则迅速退化。

核心贡献¶

HMM 架构：双频（低频/高频）子模块分别捕获抽象gist知识和情景细节
转换假说启发：模拟人脑记忆整合机制，实现上下文依赖的记忆重建
MemStack 方法：将多粒度记忆特征分布到解码器早期层，无需额外 token
超长上下文：在超出预训练 4K 长度时保持性能，解决 Transformer 的上下文退化问题
测试时整合：在线记忆整合，无需微调或额外训练

关键洞察¶

最终记忆输出根据上下文动态重建为抽象表征与细粒度表征的组合，类似于人类记忆提取的重构性质。

记忆不是被动存储，而是主动重建。高频子模块保留细节，低频子模块捕获概要，两者根据检索上下文动态融合。

为什么重要¶

神经科学桥接：首次将人脑记忆整合机制系统性地引入序列模型设计
上下文延伸：解决预训练上下文窗口限制，在测试时可外推到更长上下文
无额外开销：MemStack 不引入额外 token，计算开销可控

与端侧/移动端的相关性¶

测试时整合适合持续运行的端侧应用
无需存储完整经验，只保留整合后的表征
双重频率机制允许根据资源状况调节记忆细节层次

参考文献¶

原论文: https://arxiv.org/abs/2605.10537