type: concept tags: [gui-agent, grounding, robustness, benchmark, domain-randomization, spatial-reasoning, on-device] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[lamo-scalable-gui-agents]], [[turing-test-mobile-gui]], [[fedgui-federated-gui-agents]] sources: - url: https://arxiv.org/abs/2604.14262 title: "GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models" date: 2026-04-15 reliability: high created: 2026-04-18 updated: 2026-04-18

GUI-Perturbed: GUI Grounding 的系统性脆弱性¶

一个受控扰动框架，揭示了当前 GUI grounding 模型在空间推理和视觉变化下的系统性脆弱性。arXiv: 2604.14262

核心问题¶

GUI grounding 模型在标准基准（ScreenSpot-v2）上报告超过 85% 的准确率，但这些分数无法反映实际部署的可靠性。问题在于现有基准每次只用一张固定截图和一个固定指令评估，忽略了真实环境中视觉场景和指令表达的多样性。

当指令从直接命名（"点击提交按钮"）变为空间推理（"点击 X 上方的按钮"）时，模型准确率从 85% 骤降至 35%。一个 70% 的浏览器缩放就能让声称 85% 准确率的模型显著退化。

方法/架构¶

GUI-Perturbed 是一个受控扰动框架，沿两个独立轴线系统性地变化：

三类扰动变体¶

变体	描述	样本数
Original	Mind2Web MHTML 通过 Playwright 渲染	390
Style Randomized	随机化 CSS 样式（颜色、字体、布局）	390
Text Shrink + Precision	缩小文本并增加精度要求	390

指令类型¶

直接指令：通过文本或类型直接命名目标元素
关系指令：通过空间关系（"在 X 上方"、"在 Y 左侧"）定位目标

评估模型¶

评估了同架构系谱（UI-TARS 系列）中的三个 7B 模型，确保结果不受架构差异干扰。

实验结果¶

三个核心发现¶

1. 空间推理系统性崩溃 - 关系指令导致所有模型准确率下降 27-56 个百分点 - 这不是噪声，而是所有模型的系统性缺陷

2. 视觉启发式是静态的 - 70% 浏览器缩放产生统计显著性的性能退化 - 模型学会了在特定缩放下识别元素，但无法泛化

3. LoRA 微调反而退化 - Rank-8 LoRA SFT + 增强数据不提升反而降低性能 - 模型过拟合扰动伪影，而非学习不变性

训练实验关键发现¶

实验	结果
6.5k → 25k 数据缩放	更多数据导致更差性能（灾难性遗忘 + 过拟合）
真实 vs 合成数据	都退化，但方式不同：真实数据均匀退化，合成数据在特定扰动类型上过拟合
文本缩小+精度	最大退化（~3.3 pp），尽管这应该是"最温和"的扰动
ScreenSpot-v2 掩盖失败	标准基准能检测整体退化，但无法隔离哪些鲁棒性轴受影响

为什么标准基准不够¶

ScreenSpot-v2 只检测整体退化的信号，但无法告诉开发者是空间推理、视觉启发式还是推理校准出了问题。GUI-Perturbed 提供诊断粒度。

关键洞察¶

核心洞察：85% 的准确率是误导性的。 这些数字来自对每个截图只用一个固定指令评估的基准。实际部署中，用户可能用多种方式描述同一个元素，浏览器可能有不同的缩放级别，UI 样式可能被自定义主题改变。

训练食谱是瓶颈，不是数据来源。基线对比显示，RL + grounding 特定奖励比 SFT 更有效地改善空间鲁棒性。这意味着简单的数据增强策略对 GUI grounding 不够。

对移动 Agent 的意义：移动设备上的 GUI Agent 面临更严重的这些问题——屏幕更小、UI 更多样化、用户指令更口语化。在部署前必须用 GUI-Perturbed 类方法验证鲁棒性。

为什么重要¶

对手机端 AIOS 生态：GUI Agent 是手机端智能体的核心能力，空间推理崩溃意味着 Agent 在复杂 UI 导航场景中会系统性失败
对模型选型：不能仅凭 ScreenSpot 分数选模型，必须测试空间推理和视觉鲁棒性
对训练策略：简单的 LoRA 微调 + 数据增强不足以改善 GUI grounding 鲁棒性，需要更高级的训练方法（如 RL + grounding 奖励）

关联¶

[[secagent-mobile-gui]] — SecAgent 同样关注移动 GUI 的安全性和鲁棒性
[[pspa-bench-gui-agent]] — PSPA-Bench 是另一个 GUI Agent 评估基准
[[lamo-scalable-gui-agents]] — LAMO 关注可扩展的 GUI Agent 架构
[[turing-test-mobile-gui]] — 图灵测试方法评估 GUI Agent 的真实能力
[[fedgui-federated-gui-agents]] — FedGUI 研究联邦 GUI Agent，面临类似的鲁棒性挑战