Defense effectiveness across architectural layers: a mechanistic evaluation of persistent memory attacks on stateful LLM agents
论文基本信息¶
- 标题: Defense effectiveness across architectural layers: a mechanistic evaluation of persistent memory attacks on stateful LLM agents
- 作者: Jun Wen Leong
- arXiv ID: 2605.08442
- 类别: cs.CR (Computer Security)
- 发表日期: 2026-05-08
摘要(翻译)¶
持久性记忆攻击(Persistent memory attacks)对开源 LLM agents 达到高攻击成功率。攻击方式为:通过 RAG 检索文档注入恶意指令,存储在持久性记忆中,在后续会话执行。然而,此前尚无系统性的防御有效性评估。本文评估了六种防御方法,涵盖四个架构层级,对九个开源模型(5,040 runs,N=40 per condition)进行延迟触发攻击(delayed-trigger attacks)测试。结果显示:四种防御在约基线攻击成功率(88-89%)下失败,在统计上与未防御基线(88.6%)无法区分。Prompt Hardening 部分失败(77.8% ASR),改善来自两个模型,其中一个为真实防御效果,另一个为模型层面的拒绝(与防御无关)。架构层面的解释成立:输入级防御无法观察 RAG 注入内容,检索级分类器被"顺从框架语义掩码"(compliance-framed semantic masking)击败。仅有一种防御——记忆层的工具门控(Memory Sandbox)——将 ASR 降至 0%(九模型中八个)。唯一例外完全反转了防御效果:某个推理模型在无防御时通过执行拒绝达到 0% ASR,但在 Memory Sandbox 下反而升至 100%,因为移除显式召回强制模型进入 RAG 路径,而其拒绝机制在该路径下不激活。Memory Sandbox 在无攻击情况下 BTCR = 100%(所有条件),零效用损失。这些结果首次系统性地揭示了每类防御为何对持久性记忆攻击失败,为防御投资决策提供了依据。
核心贡献¶
1. 首个系统性防御评估框架¶
首次对持久性记忆攻击的防御有效性进行系统性评估,覆盖六种防御×四层架构×九模型=完整矩阵。
2. 防御失败机制揭示¶
- 输入级防御(Minimizer、Sanitizer):无法观察 RAG 注入内容,攻击内容在记忆层注入
- 检索级防御(RAG Sanitizer、RAG LLM Judge):被"顺从框架语义掩码"击败——攻击内容以顺从语气包装,规避分类器
- Prompt Hardening:部分有效(77.8% ASR),但效果不稳定
- 唯一有效:Memory Sandbox(记忆层工具门控)——通过移除攻击所需的召回能力实现 0% ASR
3. 防御反转(Defense Inversion)现象¶
推理模型(如某推理模型)在无防御时通过执行拒绝达到 0% ASR,但 Memory Sandbox 强制其进入 RAG 路径后,推理模型的拒绝机制不激活,反而升至 100% ASR。这揭示了工具门控防御的边界条件。
4. 零效用损失保证¶
Memory Sandbox 在无攻击情况下 BTCR = 100%,即不牺牲正常任务性能。
为什么重要¶
持久性记忆攻击是针对有状态 LLM agent 的新型威胁,攻击者在早期会话注入恶意指令存储于 agent 的持久性记忆中,在后续会话触发恶意行为。本文的系统性评估为实际部署有状态 LLM agents 的安全决策提供了关键参考。
与移动端/端侧 Agent 的关联¶
- 端侧 agent通常需要持久性记忆(如个人助手、穿戴设备上的 agent),这类攻击面对本地部署模型同样有效
- Memory Sandbox 防御可在端侧部署,但需要架构支持工具门控
- 移动端 LLM agents(如 iOS/Android 助手)若支持记忆持久化,均面临此类攻击威胁
防御层级分类¶
| 防御层级 | 具体防御 | ASR | 有效性 |
|---|---|---|---|
| 输入层 | Minimizer | 88-89% | ❌ 无效 |
| 输入层 | Sanitizer | 88-89% | ❌ 无效 |
| 检索层 | RAG Sanitizer | 88-89% | ❌ 无效 |
| 检索层 | RAG LLM Judge | 88-89% | ❌ 无效 |
| Prompt 层 | Prompt Hardening | 77.8% | ⚠️ 部分有效 |
| 记忆层 | Memory Sandbox | 0% | ✅ 有效 |
方法论亮点¶
- 延迟触发攻击(Delayed-Trigger Attack):在早期会话注入,攻击在后续会话触发,更贴近真实威胁模型
- 大尺度实验:5,040 runs,N=40 per condition,统计显著性充分
- 机制性解释:不仅报告 ASR 数字,还深入解释为何每类防御成功/失败
核心洞察¶
"输入级和检索级防御失败的根本原因:它们无法观察到 RAG 注入的内容——这些内容在存储时对防御系统不可见,只有在检索时才会被注入 agent 的上下文中。"
"唯一有效的 Memory Sandbox 防御通过移除攻击所需的召回能力来实现,而不是检测攻击内容本身——这是一种根本性的缓解策略而非检测策略。"