type: concept tags: [安全, vlm, scanpath, backdoor-attack, mobile-gui, gaze-prediction, edge-security] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[turing-test-mobile-gui]], [[gui-agent-privacy]], [[mga-memory-gui-agent]] sources: - url: https://arxiv.org/abs/2604.08766 title: "Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction" date: 2026-04-15 reliability: high created: 2026-04-16 updated: 2026-04-16

Follow My Eyes: VLM 视线预测模型的后门攻击¶

首次系统研究扫描路径预测模型的后门攻击——攻击可存活量化和手机部署，揭示移动视觉系统的新安全威胁。

核心问题¶

视线扫描路径（Scanpath）预测模型驱动着移动系统中的注视点渲染（foveated rendering）和注意力交互。以 GazeFormer 为代表的 VLM 架构结合视觉特征和文本目标查询来预测注视轨迹。但这些模型的安全性——特别是训练时投毒和后门攻击——几乎未被研究。当模型被部署在手机等边缘设备上时，后门攻击可能劫持用户的视觉注意力。

方法架构¶

论文研究了三种后门攻击范式：

1. 固定路径攻击 (Fixed-Path Attack)¶

传统后门格式：触发器激活时输出固定轨迹
弱点：在连续输出空间中产生明显的统计聚类
可通过激活聚类（Activation Clustering）等技术检测

2. 输入感知空间误导 (Input-Aware Spatial Misdirection)¶

触发器激活时将模型导向另一有效目标的扫描路径
输出在语义上仍然合理——看起来像正常的视觉搜索行为
远比固定路径难以检测

3. 扫描路径持续时间膨胀 (Scanpath Duration Inflation)¶

不改变空间轨迹，但膨胀注视停留时间
攻击更隐蔽——空间模式不变，只是"看得更慢"

触发器模态¶

视觉触发器：在图像中嵌入特定模式
文本触发器：在查询文本中嵌入特定短语
多模态触发器：视觉+文本联合触发
多模态性质显著扩大了攻击面

实验结果¶

评估维度¶

模型：GazeFormer，数据集：COCO-Search18
攻击成功率、隐蔽性、防御效果

关键发现¶

发现	详情
固定路径攻击有效但可检测	在连续输出空间产生明显聚类信号
输入感知攻击难以防御	语义合理的输出规避聚类检测
多模态触发器扩大攻击面	视觉、文本、多模态均可触发后门
现有防御不充分	没有防御能同时抑制两种攻击且保持正常精度
攻击存活手机部署	后门行为在量化和移动端推理后仍然存在

防御评估¶

测试了 5 种后训练防御方法（微调、剪枝、蒸馏等）： - 没有单一防御能同时抑制固定路径和输入感知攻击 - 不同触发器模态需要不同防御策略 - 防御效果与 clean accuracy 存在显著权衡

关键洞察¶

连续输出空间的后门更隐蔽：传统后门检测（针对分类任务的离散输出）不适用于扫描路径这种连续轨迹输出。需要新的基于时序结构的防御。
多模态触发器 = 更大攻击面：扫描路径模型的视觉+文本双输入通道意味着攻击者有更多注入点。防御必须覆盖所有模态。
量化不能消除后门：后门行为在模型量化后仍然存在——这意味着端侧部署的"压缩"步骤不会自动提高安全性。
移动系统的影响：扫描路径预测用于注视点渲染（节省 GPU 资源）和注意力引导交互。被劫持的扫描路径可能导致：渲染错误区域导致视觉质量下降、注意力误导导致用户交互被操控。

为什么重要¶

端侧 Agent（如 SecAgent、ClawMobile）越来越多地依赖 GUI 理解和视觉交互。扫描路径预测是这些系统的基础组件之一。本文证明了： 1. VLM 视觉组件存在后门风险 2. 现有防御对此类攻击无效 3. 攻击可存活端侧部署全流程

这对整个移动端 Agent 安全生态敲响了警钟——需要在模型分发和部署环节建立新的安全检查机制。

关联¶

[[secagent-mobile-gui]] — SecAgent 用语义上下文理解 GUI，其底层视觉模型可能受此类后门攻击
[[pspa-bench-gui-agent]] — PSPA-Bench 评估 GUI Agent 个性化能力，但未考虑对抗场景
[[turing-test-mobile-gui]] — 图灵测试式 GUI Agent 评估，如加入后门攻击会如何改变结论？
[[gui-agent-privacy]] — GUI Agent 隐私保护，本文增加了一个新的威胁维度：模型级攻击
[[mga-memory-gui-agent]] — MGA 的记忆驱动 GUI Agent，其视觉感知模块同样面临后门风险