type: concept tags: [gui-agent, skill-compilation, agent-memory, mobile, 持久化, 性能优化] related: [[memp-agent-procedural-memory]], [[mga-memory-gui-agent]], [[secagent-mobile-gui]], [[clawmobile-agentic]], [[long-horizon-task-mirage]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.14872 title: "SkillDroid: Compile Once, Reuse Forever" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17

SkillDroid¶

将成功的 LLM GUI 轨迹编译为可复用技能模板，实现无 LLM 调用的任务重放。解决了移动 GUI Agent 的根本性"无状态"问题。

核心问题¶

当前所有 LLM 移动 GUI Agent（DroidBot-GPT、AutoDroid、AppAgent、Mobile-Agent 等）共享一个架构缺陷：每次任务执行都是独立的推理 episode。即使昨天成功完成了"设置闹钟"，今天仍需从头推理。

这导致三个严重问题： 1. 延迟：LLM 调用占总执行时间的 75-94%（OSWorld 研究数据） 2. 成本：线性增长 — 第 100 次执行与第 1 次成本相同 3. 可靠性退化：无状态 Agent 的成功率随指令变体增加而下降，从 80% 降至 44%（150 轮纵向评估）

核心洞察：重复性移动任务不是独立推理问题。"设 7:30 闹钟"和"明天 6 点叫醒我"虽然自然语言不同，但共享相同的结构化执行路径。

方法/架构¶

SkillDroid 是一个三层技能 Agent：

Layer 1: 新鲜 LLM 推理¶

传统方式 — 每步调用 LLM 进行推理。当 Layer 2 无法匹配时降级到此层。

Layer 2: 技能编译与重放¶

成功执行的 GUI 轨迹被编译为参数化技能模板： - UI 动作序列：点击、输入、导航的有序列表 - 加权元素定位器：对每个 UI 元素分配置信权重，支持界面微调变化 - 类型化参数槽：技能中的可变部分（如时间、闹钟名称）用参数占位

编译后的技能支持三种重放模式： - 纯骨架重放：0 次 LLM 调用，35.4s 平均延迟 - 语义匹配重放：1 次 LLM 调用确认匹配，54.7s - 步骤级回退重放：5 次 LLM 调用处理动态 UI 元素，50.9s

匹配级联（Matching Cascade）¶

路由新指令到已存储技能的三级匹配： 1. 正则模式匹配：处理结构相同的指令变体 2. 嵌入相似度：捕获释义和口语化表达 3. App 过滤：缩小匹配范围到当前 App

失败学习层¶

当技能可靠性下降时触发重新编译，持续优化技能模板。

实验结果¶

150 轮纵向评估（gpt-4o-mini）¶

指标	SkillDroid	无状态基线
成功率	128/150 (85.3%)	93/150 (62.0%)
平均 LLM 调用/轮	5.8	11.3
平均延迟/轮	69.0s	84.1s
纯 L2 重放轮次	35 (23.3%)	—

按执行层分解¶

执行路径	轮次	成功率	平均 LLM 调用	平均延迟
L2: 纯重放	35	100%	0.0	36.0s
L2 + 语义匹配	32	100%	1.0	54.7s
L2 + 步骤级回退	12	100%	5.0	50.9s
所有 L2 变体	79	100%	1.2	45.1s
L2→L1 回退	29	75.9%	10.1	113.2s
L1: 新鲜推理	42	64.3%	11.6	84.0s

关键发现：当 L2 重放成功且无需完全回退时（79 轮），成功率100%，仅需 1.2 次 LLM 调用，速度提升 2.4 倍。

长期可靠性趋势¶

轮次区间	SkillDroid	基线
初期	87%	80%
后期	91% (↑)	44% (↓)

无状态 Agent 的可靠性随时间退化，而 SkillDroid 收敛上升。这从 HCI 角度意义重大：重复任务构建信任，而非消耗信任。

关键洞察¶

编译优于推理：将 LLM 推理结果编译为可复用制品，从根本上改变了 Agent 的计算范式。不是"每次重新思考"，而是"思考一次，执行多次"。
技能匹配级联的实用价值：正则+嵌入+App 过滤的三级匹配在 79.3% 的情况下实现 Full match，证明技能模板的泛化能力足够强。
HCI 含义超越性能：可预测的重复执行改变了用户对 AI Agent 的信任模型。100% 的 L2 重放成功率意味着用户可以对重复任务建立校准信任。
新的透明度需求：不同执行路径（纯重放 vs LLM 推理）在速度、可靠性和推理开放度上有显著差异，需要 UI 层面的执行路径可视化。

为什么重要¶

SkillDroid 直接解决了移动 GUI Agent 的三个核心痛点： - 延迟：纯重放 2.4 倍加速，0 LLM 调用 - 成本：5.8 vs 11.3 次 LLM 调用/轮（49% 减少） - 可靠性：从退化变为收敛，支撑真正的"Agent 持久化身份"

对于手机端 AIOS 生态，这意味着 Agent 可以真正"学会"用户的常用操作，成为可靠的日常助手而非每次从零开始的推理引擎。

关联¶

[[memp-agent-procedural-memory]] — Memp 探索 Agent 程序性记忆，SkillDroid 是技能编译方向的具体实现
[[mga-memory-gui-agent]] — MGA 以内存驱动 GUI Agent，SkillDroid 以技能编译实现类似目标
[[secagent-mobile-gui]] — SecAgent 关注语义上下文，SkillDroid 关注轨迹复用
[[clawmobile-agentic]] — 原生化 Agent 设计，SkillDroid 的技能编译可作为 ClawMobile 的持久化层
[[long-horizon-task-mirage]] — 长程任务可靠性问题，SkillDroid 通过技能编译部分解决
[[edgeflow-cold-start]] — 冷启动优化，技能重放也减少了 Agent 的冷启动延迟