type: concept tags: [安全, 后门攻击, VLM, 眼动追踪, 移动安全, 边缘部署] related: [[gui-agent-privacy]], [[anonymization-gui-agent-privacy]], [[deedge-vulnerability]], [[pspa-bench-gui-agent]] sources: - url: https://arxiv.org/abs/2604.08766 title: "Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction" date: 2026-04-09 reliability: high created: 2026-04-19 updated: 2026-04-19
Follow My Eyes: VLM 眼动预测后门攻击¶
首个针对 VLM 眼动预测模型的后门攻击研究,证明攻击可在量化和边缘部署后依然存活,对移动端注视驱动系统构成实际安全威胁。
核心问题¶
眼动预测模型(Scanpath Prediction)驱动着注视渲染和注意力交互,在移动系统中是一等安全需求。当这些模型基于视觉语言模型(VLM)构建并部署到手机端时:
- 攻击者能否通过数据投毒植入后门?
- 后门能否在模型量化和边缘部署后存活?
- 现有防御能否同时抑制攻击并保持原始性能?
攻击设计¶
基础:固定路径攻击(Fixed-Path)¶
- 最直接的攻击方式:将预测眼动轨迹重定向到固定路径
- 问题:在连续输出空间中产生可检测的聚类异常
进阶:可变输出攻击(Variable-Output)¶
输入感知空间攻击(Input-Aware Spatial Attack) - 将预测注视点重定向到攻击者选择的目标对象 - 攻击输出取决于输入场景,产生多样且合理的眼动轨迹 - 可逃避基于聚类的检测
扫描路径时长攻击(Scanpath Duration Attack) - 虚增注视持续时间,延迟视觉搜索完成 - 隐蔽性更强:不改变注视位置,只改变时间参数 - 对用户体验的破坏更不易察觉
触发模态¶
- 视觉触发:场景中的特定视觉元素
- 文本触发:场景中的文字/标签
- 多模态触发:视觉+文本联合
实验结果¶
| 配置 | 攻击效果 | 防御效果 |
|---|---|---|
| 固定路径攻击 | 高成功率 | 聚类检测可发现 |
| 输入感知空间攻击 | 高成功率 | 5种防御均无法同时抑制 |
| 时长攻击 | 高成功率 | 防御与原始性能冲突 |
关键发现: 1. 没有任何一种防御能同时抑制攻击并保持原始性能 2. 后门在模型量化后依然存活 — 8-bit/4-bit 量化不消除后门行为 3. 后门在旗舰机和旧款手机上均存活 — 在 commodity smartphones 上确认实际威胁可行性
关键洞察¶
- VLM 安全是端侧部署的关键挑战:当 VLM 驱动的 AI 系统(如 GUI Agent、眼动交互)部署到手机端时,模型完整性成为安全边界
- 量化不等于安全:常见的模型压缩(量化)不能消除后门,这与"量化可以增加安全性"的假设矛盾
- 多模态触发扩大攻击面:攻击者可选择视觉、文本或多模态触发器,防御需覆盖所有模态
- 边缘部署的独特风险:手机端模型一旦被植入后门,用户难以检测,且 OTA 更新频率低
为什么重要¶
- 手机端 AI Agent 的安全边界:随着 GUI Agent、眼动交互等 VLM 驱动系统在移动端普及,后门攻击是实际存在的威胁
- 影响模型供应链安全:从 HuggingFace 下载的预训练模型可能包含后门,边缘部署加剧了检测难度
- 推动防御研究:现有防御在多种触发模态和攻击策略下表现不佳,需要新的防御范式
关联¶
- [[gui-agent-privacy]] — GUI Agent 隐私保护,后门攻击是隐私保护之外的另一个安全维度
- [[anonymization-gui-agent-privacy]] — GUI Agent 匿名化技术,后门攻击可能绕过匿名化保护
- [[pspa-bench-gui-agent]] — 个性化智能手机 GUI Agent 基准,需考虑安全评估维度
- [[deedge-vulnerability]] — 边缘设备漏洞研究,与 VLM 后门攻击互补