type: concept tags: [gui-agent, skill-compilation, agent-memory, mobile, 持久化, 性能优化] related: [[memp-agent-procedural-memory]], [[mga-memory-gui-agent]], [[secagent-mobile-gui]], [[clawmobile-agentic]], [[long-horizon-task-mirage]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.14872 title: "SkillDroid: Compile Once, Reuse Forever" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17
SkillDroid¶
将成功的 LLM GUI 轨迹编译为可复用技能模板,实现无 LLM 调用的任务重放。解决了移动 GUI Agent 的根本性"无状态"问题。
核心问题¶
当前所有 LLM 移动 GUI Agent(DroidBot-GPT、AutoDroid、AppAgent、Mobile-Agent 等)共享一个架构缺陷:每次任务执行都是独立的推理 episode。即使昨天成功完成了"设置闹钟",今天仍需从头推理。
这导致三个严重问题: 1. 延迟:LLM 调用占总执行时间的 75-94%(OSWorld 研究数据) 2. 成本:线性增长 — 第 100 次执行与第 1 次成本相同 3. 可靠性退化:无状态 Agent 的成功率随指令变体增加而下降,从 80% 降至 44%(150 轮纵向评估)
核心洞察:重复性移动任务不是独立推理问题。"设 7:30 闹钟"和"明天 6 点叫醒我"虽然自然语言不同,但共享相同的结构化执行路径。
方法/架构¶
SkillDroid 是一个三层技能 Agent:
Layer 1: 新鲜 LLM 推理¶
传统方式 — 每步调用 LLM 进行推理。当 Layer 2 无法匹配时降级到此层。
Layer 2: 技能编译与重放¶
成功执行的 GUI 轨迹被编译为参数化技能模板: - UI 动作序列:点击、输入、导航的有序列表 - 加权元素定位器:对每个 UI 元素分配置信权重,支持界面微调变化 - 类型化参数槽:技能中的可变部分(如时间、闹钟名称)用参数占位
编译后的技能支持三种重放模式: - 纯骨架重放:0 次 LLM 调用,35.4s 平均延迟 - 语义匹配重放:1 次 LLM 调用确认匹配,54.7s - 步骤级回退重放:5 次 LLM 调用处理动态 UI 元素,50.9s
匹配级联(Matching Cascade)¶
路由新指令到已存储技能的三级匹配: 1. 正则模式匹配:处理结构相同的指令变体 2. 嵌入相似度:捕获释义和口语化表达 3. App 过滤:缩小匹配范围到当前 App
失败学习层¶
当技能可靠性下降时触发重新编译,持续优化技能模板。
实验结果¶
150 轮纵向评估(gpt-4o-mini)¶
| 指标 | SkillDroid | 无状态基线 |
|---|---|---|
| 成功率 | 128/150 (85.3%) | 93/150 (62.0%) |
| 平均 LLM 调用/轮 | 5.8 | 11.3 |
| 平均延迟/轮 | 69.0s | 84.1s |
| 纯 L2 重放轮次 | 35 (23.3%) | — |
按执行层分解¶
| 执行路径 | 轮次 | 成功率 | 平均 LLM 调用 | 平均延迟 |
|---|---|---|---|---|
| L2: 纯重放 | 35 | 100% | 0.0 | 36.0s |
| L2 + 语义匹配 | 32 | 100% | 1.0 | 54.7s |
| L2 + 步骤级回退 | 12 | 100% | 5.0 | 50.9s |
| 所有 L2 变体 | 79 | 100% | 1.2 | 45.1s |
| L2→L1 回退 | 29 | 75.9% | 10.1 | 113.2s |
| L1: 新鲜推理 | 42 | 64.3% | 11.6 | 84.0s |
关键发现:当 L2 重放成功且无需完全回退时(79 轮),成功率100%,仅需 1.2 次 LLM 调用,速度提升 2.4 倍。
长期可靠性趋势¶
| 轮次区间 | SkillDroid | 基线 |
|---|---|---|
| 初期 | 87% | 80% |
| 后期 | 91% (↑) | 44% (↓) |
无状态 Agent 的可靠性随时间退化,而 SkillDroid 收敛上升。这从 HCI 角度意义重大:重复任务构建信任,而非消耗信任。
关键洞察¶
-
编译优于推理:将 LLM 推理结果编译为可复用制品,从根本上改变了 Agent 的计算范式。不是"每次重新思考",而是"思考一次,执行多次"。
-
技能匹配级联的实用价值:正则+嵌入+App 过滤的三级匹配在 79.3% 的情况下实现 Full match,证明技能模板的泛化能力足够强。
-
HCI 含义超越性能:可预测的重复执行改变了用户对 AI Agent 的信任模型。100% 的 L2 重放成功率意味着用户可以对重复任务建立校准信任。
-
新的透明度需求:不同执行路径(纯重放 vs LLM 推理)在速度、可靠性和推理开放度上有显著差异,需要 UI 层面的执行路径可视化。
为什么重要¶
SkillDroid 直接解决了移动 GUI Agent 的三个核心痛点: - 延迟:纯重放 2.4 倍加速,0 LLM 调用 - 成本:5.8 vs 11.3 次 LLM 调用/轮(49% 减少) - 可靠性:从退化变为收敛,支撑真正的"Agent 持久化身份"
对于手机端 AIOS 生态,这意味着 Agent 可以真正"学会"用户的常用操作,成为可靠的日常助手而非每次从零开始的推理引擎。
关联¶
- [[memp-agent-procedural-memory]] — Memp 探索 Agent 程序性记忆,SkillDroid 是技能编译方向的具体实现
- [[mga-memory-gui-agent]] — MGA 以内存驱动 GUI Agent,SkillDroid 以技能编译实现类似目标
- [[secagent-mobile-gui]] — SecAgent 关注语义上下文,SkillDroid 关注轨迹复用
- [[clawmobile-agentic]] — 原生化 Agent 设计,SkillDroid 的技能编译可作为 ClawMobile 的持久化层
- [[long-horizon-task-mirage]] — 长程任务可靠性问题,SkillDroid 通过技能编译部分解决
- [[edgeflow-cold-start]] — 冷启动优化,技能重放也减少了 Agent 的冷启动延迟