跳转至

Memory Poisoning and Secure Multi-Agent Systems

论文基本信息

  • arXiv ID: 2603.20357
  • 发表日期: 2026-03-20
  • 作者: Vicenç Torra, Maria Bras-Amorós
  • 方向: 记忆安全 / 多智能体系统安全
  • 开源代码: 暂未公开

摘要(翻译)

Agentic AI 和多智能体系统(MAS)中的记忆投毒攻击近来引起了关注。大型语言模型(LLM)促进了 Agent 的构建和部署,各种记忆系统被广泛使用——包括语义记忆、情景记忆和短时记忆。这些不同记忆系统的区分主要基于记忆的持续时间,也涉及其来源和定位:用户端产生的短时记忆分布于各 Agent 中,而长期整合记忆则存储在成熟的知识数据库中。

本文首先介绍了主要类型的记忆系统,讨论了在不同记忆系统中实施记忆投毒攻击的可行性,并提出了缓解策略。本文综述了现有安全解决方案,并讨论了基于密码学的适配方案。提出将基于私有知识检索的本地推理作为语义记忆投毒缓解策略的一个示例。同时强调了与 Agent 间交互相关的实际风险,这些风险在文献中尚未得到充分研究,难以形式化和解决。因此,本文为"内置安全"(secure by design)Agent 的构建做出了贡献。

核心贡献

1. 记忆系统分类与攻击面分析

系统性地梳理了 Agentic AI 中使用的多种记忆系统(语义/情景/短时),分析各类型的攻击可行性和安全边界。

2. 记忆投毒攻击可行性框架

建立了不同记忆系统下的投毒攻击模型,包括跨 Agent 传播、跨会话持久化等攻击路径。

3. 缓解策略

提出基于密码学的缓解方案,以及基于私有知识检索的本地推理方案,为语义记忆提供内置安全防护。

4. Agent 间交互风险

强调了 Agent 交互过程中的记忆污染风险,这些风险在现有文献中研究不足,具有重要的开放研究方向。

为什么重要

本文提供了记忆投毒攻击的系统性理论框架,将零散的攻击手法归类整理,并从密码学和分布式系统角度提出防御思路。对于构建安全的生产级 Agent 系统有重要的参考价值。

与端侧/移动端的相关性

端侧和移动端的 Agent 由于本地化程度更高,Agent 间交互更频繁,记忆污染的跨传播风险可能更为突出。本文提出的本地推理方案对资源受限的端侧部署有直接的架构参考价值。

参考文献

  1. See original paper for full reference list