title: "Long-Term Memory for VLA-based Agents in Open-World Task Execution" arXiv: "2604.15671" date: "2026-04-17" tags: [agent-memory, multimodal-memory, embodied-memory, VLA] reviewer: auto source: arXiv ti: search

Long-Term Memory for VLA-based Agents in Open-World Task Execution¶

论文基本信息¶

arXiv ID: 2604.15671
发表日期: 2026-04-17
作者: Xu Huang, Weixin Mao, Yinhao Li, Hua Chen, Jiabao Zhao
类别: cs.RO (Robotics)
来源: arXiv ti: search

摘要¶

视觉-语言-动作（Vision-Language-Action, VLA）模型在具身决策中展现出重要潜力；然而，由于长时推理能力有限且缺乏持续经验积累，其在复杂化学实验室自动化等领域的应用仍受限制。现有框架通常将规划与执行解耦，往往无法将成功策略整合为可复用资产，导致多阶段协议中反复试错、效率低下。

本文提出 ChemBot，一个双层闭环框架，集成了自主 AI 智能体与进度感知的 VLA 模型（Skill-VLA），用于层次化任务分解与执行。ChemBot 利用双层记忆架构将成功轨迹整合为可检索资产，并通过 Model Context Protocol (MCP) 服务器协调子智能体和工具调用。针对 VLA 模型的固有局限，本文进一步实现了一种基于未来状态的异步推理机制，以缓解轨迹不连续性问题。在协作机器人上的广泛实验表明，ChemBot 在复杂长时化学实验中相较于现有 VLA 基线取得了更高的操作安全性和任务成功率。

核心贡献¶

ChemBot 双层框架：将任务分解（上层智能体）与执行控制（下层 VLA）解耦又协同
双层记忆架构：
上层：任务进度记忆（progress-aware memory）
下层：成功轨迹记忆（trajectory memory）
MCP 服务器：标准化子智能体和工具编排，降低记忆-执行耦合
未来状态异步推理：解决 VLA 模型固有的轨迹不连续问题

为什么重要¶

这是首个将长期记忆机制引入 VLA 具身智能体的系统性工作。传统 VLA 研究聚焦于单回合视觉-语言-动作映射，ChemBot 填补了"如何让 VLA 智能体从历史成功中持续学习"这一关键空白。双层记忆架构对移动端/端侧具身智能体有直接参考价值。

与移动端/端侧的相关性¶

虽然 ChemBot 聚焦于化学实验室机器人，但其双层记忆架构可迁移至移动端具身智能体： - 端侧具身记忆：手机/机器人需要从历史交互中学习用户习惯和物理环境规律 - MCP 协议：跨设备/跨场景的工具调用标准化，减少记忆-工具的耦合开销 - 轨迹压缩：成功经验的高效存储和检索是端侧资源受限环境的关键

参考文献¶

（详见原论文）