type: concept tags: [安全, vlm, scanpath, backdoor-attack, mobile-gui, gaze-prediction, edge-security] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[turing-test-mobile-gui]], [[gui-agent-privacy]], [[mga-memory-gui-agent]] sources: - url: https://arxiv.org/abs/2604.08766 title: "Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16
Follow My Eyes: VLM 视线预测模型的后门攻击¶
首次系统研究扫描路径预测模型的后门攻击——攻击可存活量化和手机部署,揭示移动视觉系统的新安全威胁。
核心问题¶
视线扫描路径(Scanpath)预测模型驱动着移动系统中的注视点渲染(foveated rendering)和注意力交互。以 GazeFormer 为代表的 VLM 架构结合视觉特征和文本目标查询来预测注视轨迹。但这些模型的安全性——特别是训练时投毒和后门攻击——几乎未被研究。当模型被部署在手机等边缘设备上时,后门攻击可能劫持用户的视觉注意力。
方法架构¶
论文研究了三种后门攻击范式:
1. 固定路径攻击 (Fixed-Path Attack)¶
- 传统后门格式:触发器激活时输出固定轨迹
- 弱点:在连续输出空间中产生明显的统计聚类
- 可通过激活聚类(Activation Clustering)等技术检测
2. 输入感知空间误导 (Input-Aware Spatial Misdirection)¶
- 触发器激活时将模型导向另一有效目标的扫描路径
- 输出在语义上仍然合理——看起来像正常的视觉搜索行为
- 远比固定路径难以检测
3. 扫描路径持续时间膨胀 (Scanpath Duration Inflation)¶
- 不改变空间轨迹,但膨胀注视停留时间
- 攻击更隐蔽——空间模式不变,只是"看得更慢"
触发器模态¶
- 视觉触发器:在图像中嵌入特定模式
- 文本触发器:在查询文本中嵌入特定短语
- 多模态触发器:视觉+文本联合触发
- 多模态性质显著扩大了攻击面
实验结果¶
评估维度¶
- 模型:GazeFormer,数据集:COCO-Search18
- 攻击成功率、隐蔽性、防御效果
关键发现¶
| 发现 | 详情 |
|---|---|
| 固定路径攻击有效但可检测 | 在连续输出空间产生明显聚类信号 |
| 输入感知攻击难以防御 | 语义合理的输出规避聚类检测 |
| 多模态触发器扩大攻击面 | 视觉、文本、多模态均可触发后门 |
| 现有防御不充分 | 没有防御能同时抑制两种攻击且保持正常精度 |
| 攻击存活手机部署 | 后门行为在量化和移动端推理后仍然存在 |
防御评估¶
测试了 5 种后训练防御方法(微调、剪枝、蒸馏等): - 没有单一防御能同时抑制固定路径和输入感知攻击 - 不同触发器模态需要不同防御策略 - 防御效果与 clean accuracy 存在显著权衡
关键洞察¶
-
连续输出空间的后门更隐蔽:传统后门检测(针对分类任务的离散输出)不适用于扫描路径这种连续轨迹输出。需要新的基于时序结构的防御。
-
多模态触发器 = 更大攻击面:扫描路径模型的视觉+文本双输入通道意味着攻击者有更多注入点。防御必须覆盖所有模态。
-
量化不能消除后门:后门行为在模型量化后仍然存在——这意味着端侧部署的"压缩"步骤不会自动提高安全性。
-
移动系统的影响:扫描路径预测用于注视点渲染(节省 GPU 资源)和注意力引导交互。被劫持的扫描路径可能导致:渲染错误区域导致视觉质量下降、注意力误导导致用户交互被操控。
为什么重要¶
端侧 Agent(如 SecAgent、ClawMobile)越来越多地依赖 GUI 理解和视觉交互。扫描路径预测是这些系统的基础组件之一。本文证明了: 1. VLM 视觉组件存在后门风险 2. 现有防御对此类攻击无效 3. 攻击可存活端侧部署全流程
这对整个移动端 Agent 安全生态敲响了警钟——需要在模型分发和部署环节建立新的安全检查机制。
关联¶
- [[secagent-mobile-gui]] — SecAgent 用语义上下文理解 GUI,其底层视觉模型可能受此类后门攻击
- [[pspa-bench-gui-agent]] — PSPA-Bench 评估 GUI Agent 个性化能力,但未考虑对抗场景
- [[turing-test-mobile-gui]] — 图灵测试式 GUI Agent 评估,如加入后门攻击会如何改变结论?
- [[gui-agent-privacy]] — GUI Agent 隐私保护,本文增加了一个新的威胁维度:模型级攻击
- [[mga-memory-gui-agent]] — MGA 的记忆驱动 GUI Agent,其视觉感知模块同样面临后门风险