Memory Inception: Latent-Space KV Cache Manipulation for Steering LLMs
论文信息¶
- arXiv: 2605.06225
- 作者: Andy Zeyi Liu, Michael Zhang, Ilana Greenberg, Adam Alnasser, Lucas Baker, John Sous
- 提交日期: 2026-05-07
- 方向: 记忆表示 / KV Cache 操作 / LLM 引导
- 类别: cs.LG
摘要¶
引导大型语言模型(LLM)通常通过指令提示或激活引导两种方式实现。提示词引导能提供强控制,但会在每一层缓存引导 token,在长程交互中造成混乱;激活引导紧凑但通常较弱,且不支持大型结构化提醒。
本文提出 Memory Inception (MI),一种无需训练的方法,通过在潜在注意力空间中插入文本衍生的 Key-Value (KV) 银行来引导 LLM。MI 不是在提示缓存中具体化提醒内容,而是将引导视为选择性 KV 分配,仅在选定的层注入潜在槽位供模型路由访问。在性格引导任务上,MI 提供了最佳的整体控制-漂移权衡,在保持竞争力的同时避免了提示词引导的缓存膨胀问题。
核心贡献¶
-
潜在空间引导:在注意力层的潜在空间操作 KV,而非修改提示词或模型参数
-
选择性 KV 注入:仅在模型路由到的选定层注入引导信息,而非广播到所有层
- 大幅减少 KV Cache 内存占用
-
避免提示词缓存膨胀
-
文本衍生的 KV 银行:从自然语言描述自动构建结构化引导向量
-
控制-漂移权衡优化:在保持模型行为不偏离的同时实现有效引导
-
与记忆系统的关联:
- 记忆可以编码为潜在 KV 槽位,按需选择性激活
- 类似于记忆的"激活阈值"机制——记忆不是被平等检索的
- 为 Agent 的选择性记忆激活提供了架构级参考
为什么重要¶
Agent 记忆系统面临的一个关键挑战是:如何在有限的上下文窗口中高效利用记忆。传统方法将所有记忆堆砌在上下文中,导致: - 上下文长度随记忆增加而线性增长 - 检索到的记忆可能与当前任务不匹配 - 记忆之间的干扰导致推理质量下降
Memory Inception 通过在潜在空间操作 KV 提供了一种优雅的解决方案: - 记忆即潜在槽位:记忆可以编码为固定大小的 KV 槽位,激活时注入而非静态存放 - 选择性激活:只有相关的记忆槽位被激活,减少噪声 - 避免缓存膨胀:不需要在每一层都缓存完整提醒
与端侧/移动端的相关性¶
- 内存效率:选择性 KV 注入大幅减少内存占用,适合资源受限的端侧设备
- 隐私保护:记忆可以编码为潜在向量,本地存储而不暴露具体内容
- 实时引导:轻量级引导机制支持实时个性化定制,无需重新加载完整模型
- 模块化记忆:潜在槽位机制支持记忆的动态添加/删除/替换,实现记忆的热插拔