type: concept tags: [gui-agent, privacy, mobile, anonymization, pii, multimodal, security] related: [[gui-agent-privacy]], [[secagent-mobile-gui]], [[cora-mobile-gui-safety]], [[turing-test-mobile-gui]] sources: - url: https://arxiv.org/abs/2602.10139 title: "Anonymization-Enhanced Privacy Protection for Mobile GUI Agents: Available but Invisible" date: 2026-02-08 reliability: high - url: https://github.com/one-step-beh1nd/gui_privacy_protection title: "Code Repository" date: 2026-02-08 reliability: high created: 2026-04-19 updated: 2026-04-19
Anonymization-Enhanced Privacy Protection for Mobile GUI Agents¶
一种"可用但不可见"的匿名化框架,在保留移动 GUI Agent 任务执行能力的同时,阻止云端模型接触真实敏感信息。
来源:Zhao et al., 2026-02-08, arXiv:2602.10139
核心问题¶
移动 GUI Agent(如基于 MLLM 的自动化操作工具)在执行任务时需要捕获整个屏幕内容(截图 + XML 层级),这导致系统性过度采集:用户的手机号、地址、聊天记录、验证码、金融信息等敏感数据被不必要地暴露给云端模型。更严重的是,像 AppCopilot 等系统会将提取的用户信息持久缓存到内部模块,进一步扩大攻击面。
现有四类防御方案均存在根本缺陷: | 方案类型 | 代表工作 | 核心问题 | |---------|---------|---------| | 暴露减少 | CORE | 仍会传输任务相关的原始敏感内容 | | 混淆扰动 | DualTAP | 对任务相关隐私内容减弱扰动,保留可识别性 | | 访问控制 | PrivWeb | 授权后直接暴露真实敏感值 | | 语义替换 | GUIGuard | Agent 失去使用被掩码 PII 的能力 |
核心矛盾:如何让 Agent 能"使用"敏感数据完成任务,但永远"看不到"真实值?
方法/架构¶
论文提出"可用但不可见"(Available-but-Invisible)匿名化框架,在手机与云端 Agent 之间插入可信本地隐私层:
四层架构¶
-
PII Detector — 使用 PII 感知识别模型检测 UI 内容中的敏感信息(手机号、地址、邮箱、金融信息等),支持截图和 XML 层级双模态检测。
-
UI Transformer — 将检测到的敏感内容替换为确定性、类型保留的占位符(如
PHONE_NUMBER#a1b2c)。关键设计: - 占位符保留语义类别(PHONE_NUMBER、EMAIL 等)
- 同一敏感值在会话内始终映射到同一占位符(一致性)
-
去除所有可识别细节
-
Secure Interaction Proxy — 拦截 Agent 发出的所有操作指令,将占位符映射回原始值后在设备上执行。Agent 永远只操作匿名化界面。
-
Privacy Gatekeeper — 当推理需要对原始敏感值进行计算时(如比较两个手机号),在本地执行受限计算,仅返回非敏感结果给 Agent。
跨模态一致性¶
框架确保三个模态(用户指令、XML 层级、截图)的匿名化保持一致: - 用户指令中的敏感词也被替换 - XML 中的敏感属性值被替换 - 截图中的敏感区域被遮盖/替换 - 使用会话作用域的本地映射表保证时间一致性
实验结果¶
在 AndroidLab 和 PrivScreen 两个基准上的实验结果:
- 隐私泄露大幅降低:在多个模型(包括 GPT-4V、Claude 等)上,框架显著减少了 PII 泄漏率
- 效用损失有限:任务完成率仅轻微下降,隐私-效用权衡达到当前最优
- 对比优势明显:在 Table 1 的对比中,该框架是唯一同时满足"Agent 能使用敏感数据"和"Agent 看不到真实值"的方法
与现有方法的对比¶
| 方法 | 保护 PII | Agent 可用任务相关 PII | 跨模态一致 |
|---|---|---|---|
| CORE | ❌ 传输原始值 | ✅ | ❌ |
| DualTAP | ⚠️ 弱化保护 | ✅ | ❌ |
| PrivWeb | ❌ 授权后暴露 | ✅ | ❌ |
| GUIGuard | ✅ | ❌ 失去可用性 | ⚠️ |
| 本文 | ✅ | ✅ | ✅ |
关键洞察¶
-
结构性隐私问题:论文指出隐私泄露不是实现细节问题,而是当前移动 OS 生态的结构性属性——缺乏原生的、LLM 友好的交互协议(如 Tool Calling、MCP),导致 Agent 必须通过"看整个屏幕"来感知环境。
-
确定性占位符是核心创新:相比随机混淆或简单分类,类型保留 + 确定性映射让 Agent 能在匿名化界面上进行有意义的推理和操作。
-
会话作用域映射表解决了时间一致性问题:同一敏感值在多步交互中始终映射到同一占位符,避免 Agent 因占位符变化而产生 grounding 失败。
-
长期方向:论文认为根本解决方案需要移动 OS 原生支持语义化、隐私感知的 Agent 接口——这对手机端 AIOS 的系统设计有直接指导意义。
为什么重要¶
对手机端 AIOS 生态的意义:
- 安全底线:随着 Agent 从"辅助"走向"自主操作",隐私保护成为不可回避的系统级需求。该框架为 AIOS 的 Agent 安全层设计提供了可落地方案。
- 端云协同范式:该工作展示了"敏感计算留在端侧、推理能力放在云端"的协作模式,是端云协同在安全领域的典型应用。
- 推动 OS 原生支持:论文呼吁移动 OS 提供原生隐私感知接口,这对小米 HyperOS、华为 HarmonyOS 等系统的 Agent 框架设计有直接参考价值。
- 开源可用:代码已开源(GitHub: one-step-beh1nd/gui_privacy_protection),可直接集成到现有 Agent 系统中。
关联¶
- [[gui-agent-privacy]] — GUI Agent 隐私保护的通用概念框架
- [[secagent-mobile-gui]] — SecAgent 的安全感知 GUI Agent 架构
- [[cora-mobile-gui-safety]] — CORA 的合规风险控制,互补安全维度
- [[turing-test-mobile-gui]] — 评估 GUI Agent 能力的基准,隐私是评估维度之一
- [[edge-cloud-offloading]] — 端云协同架构,隐私保护是卸载决策的关键约束