type: concept tags: [安全, 后门攻击, VLM, 眼动追踪, 移动安全, 边缘部署] related: [[gui-agent-privacy]], [[anonymization-gui-agent-privacy]], [[deedge-vulnerability]], [[pspa-bench-gui-agent]] sources: - url: https://arxiv.org/abs/2604.08766 title: "Follow My Eyes: Backdoor Attacks on VLM-based Scanpath Prediction" date: 2026-04-09 reliability: high created: 2026-04-19 updated: 2026-04-19

Follow My Eyes: VLM 眼动预测后门攻击¶

首个针对 VLM 眼动预测模型的后门攻击研究，证明攻击可在量化和边缘部署后依然存活，对移动端注视驱动系统构成实际安全威胁。

核心问题¶

眼动预测模型（Scanpath Prediction）驱动着注视渲染和注意力交互，在移动系统中是一等安全需求。当这些模型基于视觉语言模型（VLM）构建并部署到手机端时：

攻击者能否通过数据投毒植入后门？
后门能否在模型量化和边缘部署后存活？
现有防御能否同时抑制攻击并保持原始性能？

攻击设计¶

基础：固定路径攻击（Fixed-Path）¶

最直接的攻击方式：将预测眼动轨迹重定向到固定路径
问题：在连续输出空间中产生可检测的聚类异常

进阶：可变输出攻击（Variable-Output）¶

输入感知空间攻击（Input-Aware Spatial Attack） - 将预测注视点重定向到攻击者选择的目标对象 - 攻击输出取决于输入场景，产生多样且合理的眼动轨迹 - 可逃避基于聚类的检测

扫描路径时长攻击（Scanpath Duration Attack） - 虚增注视持续时间，延迟视觉搜索完成 - 隐蔽性更强：不改变注视位置，只改变时间参数 - 对用户体验的破坏更不易察觉

触发模态¶

视觉触发：场景中的特定视觉元素
文本触发：场景中的文字/标签
多模态触发：视觉+文本联合

实验结果¶

配置	攻击效果	防御效果
固定路径攻击	高成功率	聚类检测可发现
输入感知空间攻击	高成功率	5种防御均无法同时抑制
时长攻击	高成功率	防御与原始性能冲突

关键发现： 1. 没有任何一种防御能同时抑制攻击并保持原始性能 2. 后门在模型量化后依然存活 — 8-bit/4-bit 量化不消除后门行为 3. 后门在旗舰机和旧款手机上均存活 — 在 commodity smartphones 上确认实际威胁可行性

关键洞察¶

VLM 安全是端侧部署的关键挑战：当 VLM 驱动的 AI 系统（如 GUI Agent、眼动交互）部署到手机端时，模型完整性成为安全边界
量化不等于安全：常见的模型压缩（量化）不能消除后门，这与"量化可以增加安全性"的假设矛盾
多模态触发扩大攻击面：攻击者可选择视觉、文本或多模态触发器，防御需覆盖所有模态
边缘部署的独特风险：手机端模型一旦被植入后门，用户难以检测，且 OTA 更新频率低

为什么重要¶

手机端 AI Agent 的安全边界：随着 GUI Agent、眼动交互等 VLM 驱动系统在移动端普及，后门攻击是实际存在的威胁
影响模型供应链安全：从 HuggingFace 下载的预训练模型可能包含后门，边缘部署加剧了检测难度
推动防御研究：现有防御在多种触发模态和攻击策略下表现不佳，需要新的防御范式

关联¶

[[gui-agent-privacy]] — GUI Agent 隐私保护，后门攻击是隐私保护之外的另一个安全维度
[[anonymization-gui-agent-privacy]] — GUI Agent 匿名化技术，后门攻击可能绕过匿名化保护
[[pspa-bench-gui-agent]] — 个性化智能手机 GUI Agent 基准，需考虑安全评估维度
[[deedge-vulnerability]] — 边缘设备漏洞研究，与 VLM 后门攻击互补