跳转至

Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making

摘要

在动态和关键安全环境中运行的自主 Agent 需要既计算高效又物理可解释的决策框架。现有端到端学习方法缺乏可解释性和对物理约束的显式一致性保证。本文提出一种事件中心的 world modeling 框架,结合记忆增强检索用于具体决策。该框架将环境表示为结构化的语义事件集合,编码为置换不变潜在表示。决策通过从经验知识库中检索执行,每个条目关联事件表示与相应策略。最终动作计算为检索解决方案的加权组合,提供决策与存储经验之间的透明链接。

核心贡献

  1. 事件中心表示:将环境表示为结构化语义事件,而非原始感知数据,支持高效抽象和推理

  2. 记忆增强检索:通过案例推理实现决策,决策过程完全可追溯和可解释

  3. 物理信息整合:将物理约束融入检索过程,鼓励选择与观测系统动力学一致的行动

  4. 实时性能:在 UAV 飞行场景中验证,满足实时控制约束

为什么重要

事件中心方法为具身 Agent 提供了一种介于纯符号规划和端到端学习之间的中间路线: - 可解释:决策基于检索到的历史经验,每个决策都有迹可循 - 物理一致:通过物理约束编码,确保行动符合物理规律 - 高效:案例推理比在线规划更高效,适合实时控制

与移动端/端侧相关性

  1. 边缘部署友好:事件表示比原始感知数据更紧凑,适合边缘存储
  2. 实时决策:检索推理满足严格时延要求
  3. 安全关键应用:透明决策链支持安全审计,适用于自动驾驶、无人机等
  4. 持续学习:新经验可逐步添加到记忆库,支持增量学习

相关论文

  • OVAL (2604.12872) 开放词汇记忆的终身目标导航
  • MEM (2603.03596) 多尺度具身记忆
  • CMMR-VLN (2603.07997) 视觉-语言导航的持续多模态记忆检索