跳转至

type: concept tags: [安全, vlm, scanpath, backdoor-attack, mobile-gui, gaze-prediction, edge-security] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[turing-test-mobile-gui]], [[gui-agent-privacy]], [[mga-memory-gui-agent]] sources: - url: https://arxiv.org/abs/2604.08766 title: "Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16


Follow My Eyes: VLM 视线预测模型的后门攻击

首次系统研究扫描路径预测模型的后门攻击——攻击可存活量化和手机部署,揭示移动视觉系统的新安全威胁。

核心问题

视线扫描路径(Scanpath)预测模型驱动着移动系统中的注视点渲染(foveated rendering)和注意力交互。以 GazeFormer 为代表的 VLM 架构结合视觉特征和文本目标查询来预测注视轨迹。但这些模型的安全性——特别是训练时投毒和后门攻击——几乎未被研究。当模型被部署在手机等边缘设备上时,后门攻击可能劫持用户的视觉注意力。

方法架构

论文研究了三种后门攻击范式:

1. 固定路径攻击 (Fixed-Path Attack)

  • 传统后门格式:触发器激活时输出固定轨迹
  • 弱点:在连续输出空间中产生明显的统计聚类
  • 可通过激活聚类(Activation Clustering)等技术检测

2. 输入感知空间误导 (Input-Aware Spatial Misdirection)

  • 触发器激活时将模型导向另一有效目标的扫描路径
  • 输出在语义上仍然合理——看起来像正常的视觉搜索行为
  • 远比固定路径难以检测

3. 扫描路径持续时间膨胀 (Scanpath Duration Inflation)

  • 不改变空间轨迹,但膨胀注视停留时间
  • 攻击更隐蔽——空间模式不变,只是"看得更慢"

触发器模态

  • 视觉触发器:在图像中嵌入特定模式
  • 文本触发器:在查询文本中嵌入特定短语
  • 多模态触发器:视觉+文本联合触发
  • 多模态性质显著扩大了攻击面

实验结果

评估维度

  • 模型:GazeFormer,数据集:COCO-Search18
  • 攻击成功率、隐蔽性、防御效果

关键发现

发现 详情
固定路径攻击有效但可检测 在连续输出空间产生明显聚类信号
输入感知攻击难以防御 语义合理的输出规避聚类检测
多模态触发器扩大攻击面 视觉、文本、多模态均可触发后门
现有防御不充分 没有防御能同时抑制两种攻击且保持正常精度
攻击存活手机部署 后门行为在量化和移动端推理后仍然存在

防御评估

测试了 5 种后训练防御方法(微调、剪枝、蒸馏等): - 没有单一防御能同时抑制固定路径和输入感知攻击 - 不同触发器模态需要不同防御策略 - 防御效果与 clean accuracy 存在显著权衡

关键洞察

  1. 连续输出空间的后门更隐蔽:传统后门检测(针对分类任务的离散输出)不适用于扫描路径这种连续轨迹输出。需要新的基于时序结构的防御。

  2. 多模态触发器 = 更大攻击面:扫描路径模型的视觉+文本双输入通道意味着攻击者有更多注入点。防御必须覆盖所有模态。

  3. 量化不能消除后门:后门行为在模型量化后仍然存在——这意味着端侧部署的"压缩"步骤不会自动提高安全性。

  4. 移动系统的影响:扫描路径预测用于注视点渲染(节省 GPU 资源)和注意力引导交互。被劫持的扫描路径可能导致:渲染错误区域导致视觉质量下降、注意力误导导致用户交互被操控。

为什么重要

端侧 Agent(如 SecAgent、ClawMobile)越来越多地依赖 GUI 理解和视觉交互。扫描路径预测是这些系统的基础组件之一。本文证明了: 1. VLM 视觉组件存在后门风险 2. 现有防御对此类攻击无效 3. 攻击可存活端侧部署全流程

这对整个移动端 Agent 安全生态敲响了警钟——需要在模型分发和部署环节建立新的安全检查机制。

关联

  • [[secagent-mobile-gui]] — SecAgent 用语义上下文理解 GUI,其底层视觉模型可能受此类后门攻击
  • [[pspa-bench-gui-agent]] — PSPA-Bench 评估 GUI Agent 个性化能力,但未考虑对抗场景
  • [[turing-test-mobile-gui]] — 图灵测试式 GUI Agent 评估,如加入后门攻击会如何改变结论?
  • [[gui-agent-privacy]] — GUI Agent 隐私保护,本文增加了一个新的威胁维度:模型级攻击
  • [[mga-memory-gui-agent]] — MGA 的记忆驱动 GUI Agent,其视觉感知模块同样面临后门风险