Memory Inception: Latent-Space KV Cache Manipulation for Steering LLMs

论文信息¶

arXiv: 2605.06225
作者: Andy Zeyi Liu, Michael Zhang, Ilana Greenberg, Adam Alnasser, Lucas Baker, John Sous
提交日期: 2026-05-07
方向: 记忆表示 / KV Cache 操作 / LLM 引导
类别: cs.LG

摘要¶

引导大型语言模型（LLM）通常通过指令提示或激活引导两种方式实现。提示词引导能提供强控制，但会在每一层缓存引导 token，在长程交互中造成混乱；激活引导紧凑但通常较弱，且不支持大型结构化提醒。

本文提出 Memory Inception (MI)，一种无需训练的方法，通过在潜在注意力空间中插入文本衍生的 Key-Value (KV) 银行来引导 LLM。MI 不是在提示缓存中具体化提醒内容，而是将引导视为选择性 KV 分配，仅在选定的层注入潜在槽位供模型路由访问。在性格引导任务上，MI 提供了最佳的整体控制-漂移权衡，在保持竞争力的同时避免了提示词引导的缓存膨胀问题。

核心贡献¶

潜在空间引导：在注意力层的潜在空间操作 KV，而非修改提示词或模型参数
选择性 KV 注入：仅在模型路由到的选定层注入引导信息，而非广播到所有层
大幅减少 KV Cache 内存占用
避免提示词缓存膨胀
文本衍生的 KV 银行：从自然语言描述自动构建结构化引导向量
控制-漂移权衡优化：在保持模型行为不偏离的同时实现有效引导
与记忆系统的关联：
记忆可以编码为潜在 KV 槽位，按需选择性激活
类似于记忆的"激活阈值"机制——记忆不是被平等检索的
为 Agent 的选择性记忆激活提供了架构级参考

为什么重要¶

Agent 记忆系统面临的一个关键挑战是：如何在有限的上下文窗口中高效利用记忆。传统方法将所有记忆堆砌在上下文中，导致： - 上下文长度随记忆增加而线性增长 - 检索到的记忆可能与当前任务不匹配 - 记忆之间的干扰导致推理质量下降

Memory Inception 通过在潜在空间操作 KV 提供了一种优雅的解决方案： - 记忆即潜在槽位：记忆可以编码为固定大小的 KV 槽位，激活时注入而非静态存放 - 选择性激活：只有相关的记忆槽位被激活，减少噪声 - 避免缓存膨胀：不需要在每一层都缓存完整提醒

与端侧/移动端的相关性¶

内存效率：选择性 KV 注入大幅减少内存占用，适合资源受限的端侧设备
隐私保护：记忆可以编码为潜在向量，本地存储而不暴露具体内容
实时引导：轻量级引导机制支持实时个性化定制，无需重新加载完整模型
模块化记忆：潜在槽位机制支持记忆的动态添加/删除/替换，实现记忆的热插拔