type: concept tags: [agent, smartphone, system-design, mobile, native, gui-agent, agentic, runtime, EuroMLSys] related: [[secagent-mobile-gui]], [[pspa-bench-gui-agent]], [[gui-agent-privacy]], [[mga-memory-gui-agent]] sources: - url: https://arxiv.org/abs/2602.22942v2 title: "ClawMobile: Rethinking Smartphone-Native Agentic Systems (EuroMLSys 2026)" date: 2026-04-11 reliability: high - url: https://github.com/ClawMobile/ClawMobile title: "ClawMobile 开源实现" date: 2026-04 reliability: high created: 2026-04-14 updated: 2026-04-14

ClawMobile: 重新思考智能手机原生 Agent 系统¶

EuroMLSys 2026 | 作者: Hongchao Du, Shangyu Wu 等 (MBZUAI / CityU HK) | 开源: https://github.com/ClawMobile/ClawMobile

核心问题¶

手机端 Agent 面临独特挑战——受限执行上下文、碎片化控制接口、快速变化的应用状态。

现有方法的矛盾：UI 交互覆盖面广但对 UI 漂移和时序敏感；Tool/API 控制更稳定但跨 App 能力不足。真实世界移动 Agent 失败往往因为执行被设备多变条件打断，而非规划能力不足。

系统架构¶

分层架构，显式分离高层语言推理与底层设备执行。三大组件：

Agent Orchestrator（编排器）¶

顶层推理循环：将用户输入转化为可执行计划
不直接操作界面，通过工具调用与 Control Backends 交互
每次执行后重新查询设备状态验证进度

Control Backends（控制后端）¶

后端类型	特点	适用
确定性 (ADB, Termux API)	语义确定，成本低	优先使用
UI Agent	语义理解屏幕，灵活但不确定	确定性路径不足时
直接 UI 控制	底层操作，覆盖广但语义弱	兜底

原则：确定性优先——先结构化控制，再概率性 UI 推理。

Memory（记忆）¶

提供移动端知识、执行偏好，影响后端选择
与任一后端解耦

执行感知调度¶

调度是迭代过程： 1. Orchestrator 生成计划 → 查询 Memory 确认 API 2. 确定性后端 → UI Agent → 直接 UI 控制（依次升级） 3. 执行后验证设备状态 4. 未完成 → 重新规划，继续循环

关键创新：每个调用有明确预期结果，执行后重查设备状态验证。

实验结果¶

Google Pixel 9 (Android 16)，GPT-5.2，对比 DroidRun (DR)：

App	任务	完成率 DR/CM	耗时/s DR/CM
Settings	暗色主题	100/100	26/21
Chrome	搜索金价	73/100	26/67
Play	安装小红书	33/100	29/117
YouTube	播放MV跳广告	100/100	66/88
YouTube	MV评论留言	85/100	121/235
跨App	搜英超写摘要	73/100	60/145

ClawMobile 6/6 任务 100% 完成，DroidRun 在复杂任务失败。代价是平均慢 57.5 秒。

失败案例分析¶

DroidRun 跨 App 搜索的 3 种失败： 1. 异步启动 — Chrome 启动慢，误判失败 2. 歧义 UI — 点搜索框误触历史记录 3. 错误成功检测 — Notes 未创建笔记就判定完成

ClawMobile 缓解：每次操作后重查状态、检测启动中等待、失败时重新评估选替代后端。

三大研究挑战¶

⚡ 效率¶

高效状态表示（增量更新替代全量序列化）
混合调度（确定性 vs 概率性的成本 × 可靠性）
模型部署（云端延迟 vs 端侧硬件限制 → 混合策略）

🔄 适应性¶

技能抽象（从轨迹提取可复用技能）
分层记忆（短期上下文 vs 长期技能）
领域专业化

🛡️ 稳定性¶

显式进度验证 + 容错恢复
隐私保护（有界日志、权限仲裁）

为什么重要¶

将移动 Agent 视为运行时系统问题而非算法问题。与 [[apple-intelligence]] App Intents、小米 HyperAI 系统级集成思路一致——Agent 不应是外挂，应是 OS 一部分。

关联¶

[[secagent-mobile-gui]] — 语义增强 GUI Agent
[[mga-memory-gui-agent]] — 记忆驱动（解决适应性 RQ2）
[[pspa-bench-gui-agent]] — 个性化评估
[[gui-agent-privacy]] — 隐私保护（解决稳定性 RQ3）
[[turing-test-mobile-gui]] — 拟人化基准
[[edgeflow-cold-start]] — 冷启动（解决效率 RQ1）