type: concept tags: [multi-agent, security, prompt-attack, adversarial, agent-reliability] related: [[diversity-collapse-multi-agent]], [[semantic-consensus-multi-agent]], [[gui-agent-focused-distraction-attack]], [[self-improving-error-diagnosis-multi-agent]] sources: - url: https://arxiv.org/abs/2604.16543 title: "Conjunctive Prompt Attacks in Multi-Agent LLM Systems" date: 2026-04-18 reliability: high created: 2026-04-21 updated: 2026-04-21
多 Agent 系统的合取式提示攻击¶
多 Agent LLM 系统面临一种新型攻击模式:攻击者只需入侵一个子 Agent,就能通过合取式提示(Conjunctive Prompt)将恶意载荷扩散到整个协作链路。这对手机端多 Agent 架构的安全设计具有直接警示意义。
核心问题¶
随着 LLM 从单一聊天模型演进为多 Agent 协作系统,安全攻击面也发生了根本性变化。传统提示注入攻击针对单一模型,但在多 Agent 系统中,攻击者可以利用 Agent 间的消息传递链路,通过合取式攻击(将恶意指令拆分嵌入多个子 Agent 的输出中)来绕过单点安全检测。
典型的多 Agent 流水线包含:用户 → 编排 Agent → 专业子 Agent(如航班查询、酒店预订)→ 外部工具/数据库。每个子 Agent 都可能被入侵,而恶意内容可以沿着通信链传播,最终影响编排 Agent 的决策。
方法/架构¶
论文提出了多 Agent LLM 系统的安全分析框架,主要发现:
- 攻击面分解:将多 Agent 系统的攻击面分为三个层级:
- 输入层:用户提示直接注入
- Agent 间通信层:子 Agent 输出中嵌入恶意载荷(最危险)
-
工具调用层:通过外部工具返回值注入
-
合取式攻击模式:攻击者不需要在单一消息中包含完整恶意指令,而是将攻击载荷分散到多个 Agent 的正常输出中,每个片段看起来无害,但组合后产生恶意效果。
-
黑盒威胁模型:攻击者无需了解系统内部结构,仅通过与系统的有限交互即可构造有效攻击。
实验结果¶
论文在多个多 Agent 架构上评估了合取式攻击的有效性: - 与传统单 Agent 提示注入相比,合取式攻击在多 Agent 系统中的成功率显著更高 - 即使每个子 Agent 都经过安全对齐,攻击载荷通过组合仍能绕过检测 - 现有的单 Agent 防御机制(如输入过滤、输出审查)在多 Agent 场景下效果有限
关键洞察¶
- 涌现性漏洞:多 Agent 系统的安全漏洞不是单个 Agent 漏洞的简单叠加,而是从 Agent 间交互中涌现的新型威胁。这与分布式系统中的"组合安全"问题类似。
- 防御不能简单叠加:为每个 Agent 单独部署安全检测不足以防御合取式攻击,需要从系统层面设计防御机制。
- 手机端的放大效应:在手机端多 Agent 系统中(如语音助手调用多个 App Agent),攻击面更加分散,且用户难以察觉跨 Agent 的异常行为。
为什么重要¶
手机端 AIOS 正在走向多 Agent 架构——系统级 Agent 编排多个专业 App Agent 完成复杂任务。这篇论文揭示了一个关键安全盲区:当多个看似安全的 Agent 协作时,攻击者可以通过组合方式突破整体防线。对手机端 Agent 系统设计而言,这意味着: - Agent 间通信需要加密和完整性验证 - 需要系统级的行为监控,而非仅依赖单 Agent 的安全审查 - 用户需要对跨 Agent 操作有透明的知情权
关联¶
- [[diversity-collapse-multi-agent]] — 多 Agent 系统的另一结构性风险:多样性坍塌
- [[semantic-consensus-multi-agent]] — 企业级多 Agent 冲突检测与解决机制
- [[gui-agent-focused-distraction-attack]] — 另一种针对 Agent 的注意力分散攻击
- [[self-improving-error-diagnosis-multi-agent]] — 提高多 Agent 系统可靠性的自改进方法
- [[agent-persistent-identity]] — Agent 身份管理与安全信任链