跳转至

type: concept tags: [agent, smartphone, system-design, mobile, native, gui-agent, agentic, runtime, EuroMLSys] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[gui-agent-privacy]], [[mga-memory-gui-agent]] sources: - url: https://arxiv.org/abs/2602.22942v2 title: "ClawMobile: Rethinking Smartphone-Native Agentic Systems (EuroMLSys 2026)" date: 2026-04-11 reliability: high - url: https://github.com/ClawMobile/ClawMobile title: "ClawMobile 开源实现" date: 2026-04 reliability: high created: 2026-04-14 updated: 2026-04-14


ClawMobile: 重新思考智能手机原生 Agent 系统

EuroMLSys 2026 | 作者: Hongchao Du, Shangyu Wu 等 (MBZUAI / CityU HK) | 开源: https://github.com/ClawMobile/ClawMobile

核心问题

手机端 Agent 面临独特挑战——受限执行上下文、碎片化控制接口、快速变化的应用状态。

现有方法的矛盾:UI 交互覆盖面广但对 UI 漂移和时序敏感;Tool/API 控制更稳定但跨 App 能力不足。真实世界移动 Agent 失败往往因为执行被设备多变条件打断,而非规划能力不足。

系统架构

分层架构,显式分离高层语言推理与底层设备执行。三大组件:

Agent Orchestrator(编排器)

  • 顶层推理循环:将用户输入转化为可执行计划
  • 不直接操作界面,通过工具调用与 Control Backends 交互
  • 每次执行后重新查询设备状态验证进度

Control Backends(控制后端)

后端类型 特点 适用
确定性 (ADB, Termux API) 语义确定,成本低 优先使用
UI Agent 语义理解屏幕,灵活但不确定 确定性路径不足时
直接 UI 控制 底层操作,覆盖广但语义弱 兜底

原则:确定性优先——先结构化控制,再概率性 UI 推理。

Memory(记忆)

  • 提供移动端知识、执行偏好,影响后端选择
  • 与任一后端解耦

执行感知调度

调度是迭代过程: 1. Orchestrator 生成计划 → 查询 Memory 确认 API 2. 确定性后端 → UI Agent → 直接 UI 控制(依次升级) 3. 执行后验证设备状态 4. 未完成 → 重新规划,继续循环

关键创新:每个调用有明确预期结果,执行后重查设备状态验证

实验结果

Google Pixel 9 (Android 16),GPT-5.2,对比 DroidRun (DR):

App 任务 完成率 DR/CM 耗时/s DR/CM
Settings 暗色主题 100/100 26/21
Chrome 搜索金价 73/100 26/67
Play 安装小红书 33/100 29/117
YouTube 播放MV跳广告 100/100 66/88
YouTube MV评论留言 85/100 121/235
跨App 搜英超写摘要 73/100 60/145

ClawMobile 6/6 任务 100% 完成,DroidRun 在复杂任务失败。代价是平均慢 57.5 秒。

失败案例分析

DroidRun 跨 App 搜索的 3 种失败: 1. 异步启动 — Chrome 启动慢,误判失败 2. 歧义 UI — 点搜索框误触历史记录 3. 错误成功检测 — Notes 未创建笔记就判定完成

ClawMobile 缓解:每次操作后重查状态、检测启动中等待、失败时重新评估选替代后端。

三大研究挑战

⚡ 效率

  • 高效状态表示(增量更新替代全量序列化)
  • 混合调度(确定性 vs 概率性的成本 × 可靠性)
  • 模型部署(云端延迟 vs 端侧硬件限制 → 混合策略)

🔄 适应性

  • 技能抽象(从轨迹提取可复用技能)
  • 分层记忆(短期上下文 vs 长期技能)
  • 领域专业化

🛡️ 稳定性

  • 显式进度验证 + 容错恢复
  • 隐私保护(有界日志、权限仲裁)

为什么重要

将移动 Agent 视为运行时系统问题而非算法问题。与 [[apple-intelligence]] App Intents、小米 HyperAI 系统级集成思路一致——Agent 不应是外挂,应是 OS 一部分。

关联

  • [[secagent-mobile-gui]] — 语义增强 GUI Agent
  • [[mga-memory-gui-agent]] — 记忆驱动(解决适应性 RQ2)
  • [[pspa-bench-gui-agent]] — 个性化评估
  • [[gui-agent-privacy]] — 隐私保护(解决稳定性 RQ3)
  • [[turing-test-mobile-gui]] — 拟人化基准
  • [[edgeflow-cold-start]] — 冷启动(解决效率 RQ1)