Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models
论文信息¶
- arXiv: 2605.07721
- 作者: Victor Conchello Vendrell, Arnau Padres Masermont, Niccolò Grillo, Jordi Ros-Giralt, Arash Behboodi, Fabio Valerio Massoli
- 提交日期: 2026-05-08
- 方向: 记忆压缩 / KV Cache 优化 / 循环语言模型
- 类别: cs.CL
摘要¶
循环 LLM 架构作为提升推理能力的方向受到广泛关注,它们能够在嵌入空间内执行多步计算而无需生成中间 token。以 Ouro 为代表的模型通过迭代更新内部表示来进行推理,同时在每次迭代中保留标准 Key-Value (KV) Cache,导致内存消耗随推理深度线性增长。因此,增加推理迭代次数会带来难以承受的内存使用,限制了这类架构的实际扩展性。
本文提出 Memory-Efficient Looped Transformer (MELT),一种将推理深度与内存消耗解耦的新型架构。MELT 不再每层每迭代维护独立的标准 KV Cache,而是维护一个跨所有迭代共享的单一 KV Cache,并辅以轻量级"草稿本"(scratchpad) 机制处理中间计算。这一设计在保持推理能力的同时大幅降低了内存开销。
核心贡献¶
-
架构解耦:将计算状态与记忆状态分离,使无界推理步数成为可能,同时避免线性增长的内存开销
-
单一共享 KV Cache:在所有循环迭代中维护一个持久化缓存,草稿本负责临时计算
- 传统循环模型:每迭代 × 每层 = O(n × L) 内存
-
MELT:O(L) 内存(与迭代次数无关)
-
理论分析:证明 MELT 在显著降低内存的同时保持了与标准循环 Transformer 等效的表达能力
-
实验验证:MELT 在保持相当推理性能的同时,峰值内存使用降低了最高 10 倍
-
与 Agent 记忆系统的直接关联:
- 解决 Agent 多步推理时 KV Cache 持续膨胀的问题
- 支持更深层的思考链而不受内存约束
- 草稿本机制为 Agent 的工作记忆与长期记忆分离提供了架构参考
为什么重要¶
当前 Agent 系统的核心瓶颈之一是 KV Cache 的内存成本。随着 Agent 需要处理更长的对话历史、更复杂的推理链条,KV Cache 的线性增长严重限制了系统的实际可用深度。
MELT 通过解耦计算与记忆状态,为这一问题提供了架构级解决方案。这一思路对 Agent 记忆系统的设计有重要启示: - 动态内存管理:不是所有中间状态都需要保留在注意力缓存中 - 分层记忆架构:草稿本(计算状态)与共享 KV Cache(记忆状态)的分离,类似于 Agent 的工作记忆与长期记忆的分离 - 端侧可行性:10 倍内存降低使复杂推理在边缘设备上成为可能
与端侧/移动端的相关性¶
- 内存受限设备:移动端/边缘设备的 KV Cache 容量有限,MELT 的常数级内存占用直接解决了这一问题
- 可穿戴/IoT Agent:对内存极其敏感的可穿戴 AI 助手场景,MELT 提供了在有限硬件上运行深度推理的可能性
- 能效优化:内存访问是 AI 芯片的主要能耗来源之一,10 倍内存降低意味着显著的能效提升
- 实时响应:降低内存占用的同时保持推理能力,支持更快的响应速度
参考文献¶
- Ouro (循环 LLM 推理架构)
- Standard KV Cache 机制
- Memory-compressed attention