Executable Agentic Memory for GUI Agent

论文基本信息¶

标题: Executable Agentic Memory (EAM): Executable Agentic Memory for GUI Agent
arXiv ID: 2605.12294
发表日期: 2026-05-12
作者: Zerui Qin, Sheng Yue, Xingyuan Hua
方向: Agent Memory Representation / Knowledge Graph for GUI
类别: cs.AI

摘要¶

现代 GUI 智能体通常依赖模型中心化和逐步交互范式——LLM 必须在每个屏幕重新解释 UI 并重新决策动作，在长时域任务中脆弱不堪。

本文提出 Executable Agentic Memory (EAM)，一种结构化知识图谱（KG），将 GUI 规划从自由形式生成转向鲁棒的检索-执行过程。方法包括： - 状态感知 DFS + 动作组挖掘的样本高效记忆构建流水线，压缩多步例程 - 值引导图搜索：轻量级 Q 函数模型引导 MCTS 在 KG 上搜索

论文在理论上建立了 Q 模型的一致性偏置，并推导了路径恢复的样本复杂度。实证上，EAM 在 AndroidWorld 上超越 UI-TARS-7B 达 19.6%，同时将 token 成本降低 6 倍，平均延迟仅 2.8 秒。

核心贡献¶

EAM 架构：将 GUI 记忆表示为可执行知识图谱，支持检索-执行范式
状态感知 DFS + 动作组挖掘：样本高效的记忆构建，从交互历史中自动提取多步例程
值引导图搜索：Q 函数引导 MCTS，平衡探索与利用
理论保证：bias-consistency 证明 + 路径恢复样本复杂度界

为什么重要¶

GUI 智能体的核心瓶颈在于"每步都重新理解 UI"的范式效率极低。EAM 通过将经验编码为可执行知识图谱，让智能体能够真正复用历史操作序列，而非每次从零开始。

与移动端/端侧相关性¶

端侧 GUI 自动化（如手机操作自动化）需要高效记忆系统存储 UI 操作模式
6 倍 token 成本降低 + 2.8s 低延迟，使其适合资源受限的移动设备
MCTS + Q 函数的轻量搜索路径对端侧部署友好

参考文献¶

原文: https://arxiv.org/abs/2605.12294