Mem w 2605.09317
title: Mem-W: Latent Memory-Native GUI Agents arXiv: 2605.09317 date: 2026-05-10 tags: [agent-memory, memory-representation, GUI-agents] reviewer: auto source: arXiv API
摘要¶
GUI Agent 正在驱动 Web、移动端和桌面应用作为交互世界运行,成功的控制依赖于携带超越当前屏幕的视觉、程序性和任务级证据。然而现有 Agent 仍将记忆视为外部的、人类可读的制品:历史记录被摘要、分类、检索并以文本或结构化记录形式重新插入,再由策略编码。这种范式造成了表征形式的失配——记忆的原生形式与 Agent 的内部表征不一致。Mem-W 提出了潜在记忆原生(Latent Memory-Native)设计,让 GUI Agent 的记忆以内生潜在向量形式存在,无需人类可读的中间表示。
核心贡献¶
- 潜在记忆原生架构:记忆以内生潜在向量存储,不转换为人类可读格式,保留原始感知信号的丰富性。
- 统一记忆表征:将视觉(屏幕截图)、程序性(操作历史)、任务级(子目标追踪)三种记忆统一在潜在空间中。
- 端到端记忆更新:记忆更新通过反向传播优化,而非人工设计的规则。
- 显著降低记忆检索开销:潜在向量相似度计算比文本检索更高效。
方法详解¶
Mem-W 的核心设计:
- 潜在记忆空间:为每个 GUI 交互生成潜在记忆向量,直接编码屏幕的视觉特征和操作语义。
- 记忆读写接口:通过注意力机制从潜在记忆中读写,无需解析人类可读文本。
- 遗忘机制:基于记忆重要性分数的潜在空间裁剪,释放存储空间。
- 与策略网络联合优化:记忆模块与 Agent 策略网络端到端训练,记忆表示适应任务需求。
为什么重要¶
当前 GUI Agent 的记忆系统本质上是"人类向 Agent 传递信息的接口",而非 Agent 原生的认知结构。Mem-W 首次提出"记忆原生"视角,记忆不再是外部存储的文本,而是 Agent 内部表征的一部分。这对端侧 GUI Agent(如手机自动化、个人电脑助手)的长期任务跟踪能力有根本性提升。
与移动端/端侧相关性¶
- 高效存储:潜在向量压缩率高,比存储完整屏幕截图或操作日志节省 10x+ 存储空间
- 快速检索:向量相似度搜索(ANN)比文本匹配更快,适合实时 GUI 交互
- 隐私优势:潜在记忆不包含人类可读内容,即使泄露也难以还原具体操作
- 适合嵌入式 GUI:手表、车载娱乐系统等小屏幕设备的长期记忆模块
参考文献¶
- Zhang, G., et al. (2026). Mem-W: Latent Memory-Native GUI Agents. arXiv:2605.09317.