Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making¶

摘要¶

在动态和关键安全环境中运行的自主 Agent 需要既计算高效又物理可解释的决策框架。现有端到端学习方法缺乏可解释性和对物理约束的显式一致性保证。本文提出一种事件中心的 world modeling 框架，结合记忆增强检索用于具体决策。该框架将环境表示为结构化的语义事件集合，编码为置换不变潜在表示。决策通过从经验知识库中检索执行，每个条目关联事件表示与相应策略。最终动作计算为检索解决方案的加权组合，提供决策与存储经验之间的透明链接。

核心贡献¶

事件中心表示：将环境表示为结构化语义事件，而非原始感知数据，支持高效抽象和推理
记忆增强检索：通过案例推理实现决策，决策过程完全可追溯和可解释
物理信息整合：将物理约束融入检索过程，鼓励选择与观测系统动力学一致的行动
实时性能：在 UAV 飞行场景中验证，满足实时控制约束

为什么重要¶

事件中心方法为具身 Agent 提供了一种介于纯符号规划和端到端学习之间的中间路线： - 可解释：决策基于检索到的历史经验，每个决策都有迹可循 - 物理一致：通过物理约束编码，确保行动符合物理规律 - 高效：案例推理比在线规划更高效，适合实时控制

与移动端/端侧相关性¶

边缘部署友好：事件表示比原始感知数据更紧凑，适合边缘存储
实时决策：检索推理满足严格时延要求
安全关键应用：透明决策链支持安全审计，适用于自动驾驶、无人机等
持续学习：新经验可逐步添加到记忆库，支持增量学习

Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making¶

摘要¶

核心贡献¶

为什么重要¶

与移动端/端侧相关性¶

相关论文¶