Poison Once, Exploit Forever: Environment-Injected Memory Poisoning Attacks on Web Agents
论文基本信息¶
- arXiv ID: 2604.02623
- 发表日期: 2026-04-03
- 作者: Wei Zou, Mingwen Dong, Miguel Romero Calvo, Shuaichen Chang, Jiang Guo, Dongkyu Lee, Xing Niu, Xiaofei Ma, Yanjun Qi, Jiarong Jiang
- 方向: 记忆安全 / 记忆投毒攻击
- 开源代码: 暂未公开
摘要(翻译)¶
记忆使基于 LLM 的 Web Agent 实现个性化且强大,但同时也带来了可利用的漏洞。通过存储过去交互以个性化未来任务,Agent 不经意间创建了一个跨越网站和会话的持久攻击面。现有关于记忆的安全研究假设攻击者能够直接注入记忆存储或利用跨用户共享记忆,本文提出了一个更现实的威胁模型:仅通过环境观察实现污染。本文介绍了 Environment-injected Trajectory-based Agent Memory Poisoning (eTAMP),这是首个无需直接访问记忆即可实现跨会话、跨网站妥协的攻击方法。单个受污染的观察(如浏览一个被操纵的产品页面)即可悄无声息地毒化 Agent 的记忆,并在未来不同网站的任务执行时激活,绕过基于权限的防御。
在 (Visual)WebArena 上的实验揭示了两个关键发现:(1)eTAMP 实现了高攻击成功率:GPT-5-mini 上达 32.5%、GPT-5.2 上达 23.4%、GPT-OSS-120B 上达 19.5%。(2)Frustration Exploitation(挫败感利用):处于环境压力下的 Agent 变得极其脆弱——当 Agent 努力应对点击丢失或乱码文本时,攻击成功率(ASR)提升高达 8 倍。值得注意的是,能力更强的模型并不更安全——GPT-5.2 尽管任务性能更优,却显示出更高的脆弱性。
核心贡献¶
1. eTAMP:环境注入式记忆投毒攻击¶
攻击者无需直接访问 Agent 的记忆存储,只需在 Agent 浏览的网页中嵌入恶意内容(如被操纵的产品页面),即可实现: - 跨会话激活:受污染的观察在未来的不同网站任务中激活 - 跨网站传播:绕过同源策略限制 - 绕过权限防御:不依赖共享记忆或直接注入
2. Frustration Exploitation¶
Agent 在环境压力下(点击丢失、乱码文本)变得更容易被利用,ASR 可提升 8 倍。这揭示了一个反直觉的发现:Agent 越是在困难环境中挣扎,就越容易被记忆投毒攻击成功。
3. 模型规模与安全的不一致性¶
更强大的基础模型(GPT-5.2)并不带来更好的安全性——这与"越强大的模型越安全"的假设相悖。
为什么重要¶
随着 AI 浏览器(OpenClaw、ChatGPT Atlas、Perplexity Comet)的兴起,Web Agent 的记忆安全问题变得前所未有的紧迫。eTAMP 攻击展示了真实世界中最实用的威胁路径:攻击者不需要攻破记忆系统本身,只需要污染 Agent 观察到的环境。
与端侧/移动端的相关性¶
端侧 Web Agent(如边缘浏览器扩展)由于在资源受限环境中运行,更容易遇到环境压力(网络延迟、乱码),因此可能更易受到 Frustration Exploitation。该研究对端侧 AI 浏览器的安全设计有直接警示意义。
参考文献¶
- eTAMP attack framework on VisualWebArena — see paper for full evaluation details