跳转至

Mem w 2605.09317


title: Mem-W: Latent Memory-Native GUI Agents arXiv: 2605.09317 date: 2026-05-10 tags: [agent-memory, memory-representation, GUI-agents] reviewer: auto source: arXiv API


摘要

GUI Agent 正在驱动 Web、移动端和桌面应用作为交互世界运行,成功的控制依赖于携带超越当前屏幕的视觉、程序性和任务级证据。然而现有 Agent 仍将记忆视为外部的、人类可读的制品:历史记录被摘要、分类、检索并以文本或结构化记录形式重新插入,再由策略编码。这种范式造成了表征形式的失配——记忆的原生形式与 Agent 的内部表征不一致。Mem-W 提出了潜在记忆原生(Latent Memory-Native)设计,让 GUI Agent 的记忆以内生潜在向量形式存在,无需人类可读的中间表示。

核心贡献

  1. 潜在记忆原生架构:记忆以内生潜在向量存储,不转换为人类可读格式,保留原始感知信号的丰富性。
  2. 统一记忆表征:将视觉(屏幕截图)、程序性(操作历史)、任务级(子目标追踪)三种记忆统一在潜在空间中。
  3. 端到端记忆更新:记忆更新通过反向传播优化,而非人工设计的规则。
  4. 显著降低记忆检索开销:潜在向量相似度计算比文本检索更高效。

方法详解

Mem-W 的核心设计:

  • 潜在记忆空间:为每个 GUI 交互生成潜在记忆向量,直接编码屏幕的视觉特征和操作语义。
  • 记忆读写接口:通过注意力机制从潜在记忆中读写,无需解析人类可读文本。
  • 遗忘机制:基于记忆重要性分数的潜在空间裁剪,释放存储空间。
  • 与策略网络联合优化:记忆模块与 Agent 策略网络端到端训练,记忆表示适应任务需求。

为什么重要

当前 GUI Agent 的记忆系统本质上是"人类向 Agent 传递信息的接口",而非 Agent 原生的认知结构。Mem-W 首次提出"记忆原生"视角,记忆不再是外部存储的文本,而是 Agent 内部表征的一部分。这对端侧 GUI Agent(如手机自动化、个人电脑助手)的长期任务跟踪能力有根本性提升。

与移动端/端侧相关性

  • 高效存储:潜在向量压缩率高,比存储完整屏幕截图或操作日志节省 10x+ 存储空间
  • 快速检索:向量相似度搜索(ANN)比文本匹配更快,适合实时 GUI 交互
  • 隐私优势:潜在记忆不包含人类可读内容,即使泄露也难以还原具体操作
  • 适合嵌入式 GUI:手表、车载娱乐系统等小屏幕设备的长期记忆模块

参考文献

  • Zhang, G., et al. (2026). Mem-W: Latent Memory-Native GUI Agents. arXiv:2605.09317.