Visual Inception: Memory Poisoning Attacks on Vision-Language Models¶

论文基本信息¶

作者: Yifan Zhao, et al.
arXiv: https://arxiv.org/abs/2604.16966
领域: cs.CV, cs.AI

摘要¶

视觉语言模型（VLM）通过视觉 token 与语言模型的结合实现多模态理解。Visual Inception 研究了针对 VLM 的记忆污染攻击——攻击者通过在训练数据中植入特定的视觉模式，使 VLM 在推理时对特定图像产生错误的语言描述，从而实现对多模态记忆的操控。攻击利用 VLM 对抗样本的脆弱性，设计难以被人类察觉但能操控模型记忆的图像模式。

核心贡献¶

Memory Poisoning Attack: 首个针对 VLM 多模态记忆的污染攻击框架
Visual Inception Patterns: 难以察觉但能操控记忆的视觉模式
VLM-specific Attack Surface: 识别 VLM 相对于纯语言模型的独特攻击面
Attack Effectiveness Analysis: 系统分析攻击对不同 VLM 架构的有效性
Defense Implications: 揭示多模态记忆安全的独特挑战

研究背景与问题¶

传统对抗攻击针对模型输出（分类、检测），记忆污染攻击针对模型的内部记忆。VLM 的多模态特性创造了独特的攻击面——攻击者可以通过图像而非文本操控模型的信念。

核心方法¶

Adversarial Visual Pattern Generation: 生成能触发特定记忆更新的对抗视觉模式
Multimodal Memory Manipulation: 操控 VLM 对特定图像-文本对的记忆
Stealth Evaluation: 评估攻击的隐蔽性（人类感知 vs 模型响应）
Cross-architecture Transfer: 攻击在不同 VLM 架构间的可迁移性

为什么重要¶

Visual Inception 揭示了多模态 Agent 记忆系统的独特安全威胁。攻击者可以通过图像而非文本污染 Agent 的记忆，这对依赖视觉记忆的 Agent 系统（如视觉助手、机器人）有重要安全启示。

与移动端/端侧相关性¶

移动端视觉 Agent: 手机摄像头、AR 眼镜等设备的视觉记忆面临污染风险
隐私敏感场景: 视觉记忆中的个人隐私信息可能被攻击者利用
本地模型风险: 端侧 VLM 部署后难以检测记忆污染
防御需求: 端侧需要轻量级防御机制来检测记忆污染