跳转至

type: concept tags: [gui-agent, skill-compilation, agent-memory, mobile, 持久化, 性能优化] related: [[memp-agent-procedural-memory]], [[mga-memory-gui-agent]], [[secagent-mobile-gui]], [[clawmobile-agentic]], [[long-horizon-task-mirage]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.14872 title: "SkillDroid: Compile Once, Reuse Forever" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17


SkillDroid

将成功的 LLM GUI 轨迹编译为可复用技能模板,实现无 LLM 调用的任务重放。解决了移动 GUI Agent 的根本性"无状态"问题。

核心问题

当前所有 LLM 移动 GUI Agent(DroidBot-GPT、AutoDroid、AppAgent、Mobile-Agent 等)共享一个架构缺陷:每次任务执行都是独立的推理 episode。即使昨天成功完成了"设置闹钟",今天仍需从头推理。

这导致三个严重问题: 1. 延迟:LLM 调用占总执行时间的 75-94%(OSWorld 研究数据) 2. 成本:线性增长 — 第 100 次执行与第 1 次成本相同 3. 可靠性退化:无状态 Agent 的成功率随指令变体增加而下降,从 80% 降至 44%(150 轮纵向评估)

核心洞察:重复性移动任务不是独立推理问题。"设 7:30 闹钟"和"明天 6 点叫醒我"虽然自然语言不同,但共享相同的结构化执行路径。

方法/架构

SkillDroid 是一个三层技能 Agent

Layer 1: 新鲜 LLM 推理

传统方式 — 每步调用 LLM 进行推理。当 Layer 2 无法匹配时降级到此层。

Layer 2: 技能编译与重放

成功执行的 GUI 轨迹被编译为参数化技能模板: - UI 动作序列:点击、输入、导航的有序列表 - 加权元素定位器:对每个 UI 元素分配置信权重,支持界面微调变化 - 类型化参数槽:技能中的可变部分(如时间、闹钟名称)用参数占位

编译后的技能支持三种重放模式: - 纯骨架重放:0 次 LLM 调用,35.4s 平均延迟 - 语义匹配重放:1 次 LLM 调用确认匹配,54.7s - 步骤级回退重放:5 次 LLM 调用处理动态 UI 元素,50.9s

匹配级联(Matching Cascade)

路由新指令到已存储技能的三级匹配: 1. 正则模式匹配:处理结构相同的指令变体 2. 嵌入相似度:捕获释义和口语化表达 3. App 过滤:缩小匹配范围到当前 App

失败学习层

当技能可靠性下降时触发重新编译,持续优化技能模板。

实验结果

150 轮纵向评估(gpt-4o-mini)

指标 SkillDroid 无状态基线
成功率 128/150 (85.3%) 93/150 (62.0%)
平均 LLM 调用/轮 5.8 11.3
平均延迟/轮 69.0s 84.1s
纯 L2 重放轮次 35 (23.3%)

按执行层分解

执行路径 轮次 成功率 平均 LLM 调用 平均延迟
L2: 纯重放 35 100% 0.0 36.0s
L2 + 语义匹配 32 100% 1.0 54.7s
L2 + 步骤级回退 12 100% 5.0 50.9s
所有 L2 变体 79 100% 1.2 45.1s
L2→L1 回退 29 75.9% 10.1 113.2s
L1: 新鲜推理 42 64.3% 11.6 84.0s

关键发现:当 L2 重放成功且无需完全回退时(79 轮),成功率100%,仅需 1.2 次 LLM 调用,速度提升 2.4 倍

长期可靠性趋势

轮次区间 SkillDroid 基线
初期 87% 80%
后期 91% (↑) 44% (↓)

无状态 Agent 的可靠性随时间退化,而 SkillDroid 收敛上升。这从 HCI 角度意义重大:重复任务构建信任,而非消耗信任。

关键洞察

  1. 编译优于推理:将 LLM 推理结果编译为可复用制品,从根本上改变了 Agent 的计算范式。不是"每次重新思考",而是"思考一次,执行多次"。

  2. 技能匹配级联的实用价值:正则+嵌入+App 过滤的三级匹配在 79.3% 的情况下实现 Full match,证明技能模板的泛化能力足够强。

  3. HCI 含义超越性能:可预测的重复执行改变了用户对 AI Agent 的信任模型。100% 的 L2 重放成功率意味着用户可以对重复任务建立校准信任

  4. 新的透明度需求:不同执行路径(纯重放 vs LLM 推理)在速度、可靠性和推理开放度上有显著差异,需要 UI 层面的执行路径可视化。

为什么重要

SkillDroid 直接解决了移动 GUI Agent 的三个核心痛点: - 延迟:纯重放 2.4 倍加速,0 LLM 调用 - 成本:5.8 vs 11.3 次 LLM 调用/轮(49% 减少) - 可靠性:从退化变为收敛,支撑真正的"Agent 持久化身份"

对于手机端 AIOS 生态,这意味着 Agent 可以真正"学会"用户的常用操作,成为可靠的日常助手而非每次从零开始的推理引擎。

关联

  • [[memp-agent-procedural-memory]] — Memp 探索 Agent 程序性记忆,SkillDroid 是技能编译方向的具体实现
  • [[mga-memory-gui-agent]] — MGA 以内存驱动 GUI Agent,SkillDroid 以技能编译实现类似目标
  • [[secagent-mobile-gui]] — SecAgent 关注语义上下文,SkillDroid 关注轨迹复用
  • [[clawmobile-agentic]] — 原生化 Agent 设计,SkillDroid 的技能编译可作为 ClawMobile 的持久化层
  • [[long-horizon-task-mirage]] — 长程任务可靠性问题,SkillDroid 通过技能编译部分解决
  • [[edgeflow-cold-start]] — 冷启动优化,技能重放也减少了 Agent 的冷启动延迟