OVAL: Open-Vocabulary Augmented Memory Model for Lifelong Object Goal Navigation¶
摘要¶
目标导航(ObjectNav)是智能机器人的基础能力,要求 Agent 在未知环境中导航到指定物体。现有方法在独立单目标导航任务上表现良好,但在终身记忆表示方面存在局限,阻碍了跨扩展时段的持续目标导航。本文提出 OVAL,一个新颖的终身开放词汇记忆框架,使语义开放任务中的长期导航能够高效精确执行。该框架引入记忆描述符来促进记忆模型的结构化管理,并提出基于概率的探索策略,利用多值前沿评分提升终身探索效率。
核心贡献¶
-
终身开放词汇记忆框架:支持在语义开放任务中进行长期导航,解决了传统方法在跨时段持续目标追踪中的局限
-
记忆描述符(Memory Descriptors):引入结构化记忆管理机制,支持对物体、场景和经验的开放词汇表示
-
多值前沿评分(Multi-Value Frontier Scoring):基于概率的探索策略,增强 Agent 在新环境中的探索效率
-
开放词汇泛化能力:突破了传统方法对预定义物体类别的限制,支持任意自然语言描述的目标
为什么重要¶
OVAL 解决了机器人导航中的关键问题:从「单次任务」到「终身学习」的跨越。传统方法只关注单次导航的成功,而 OVAL 关注 Agent 如何在多次任务中积累和利用记忆,实现真正意义的终身学习能力。这对家庭服务机器人、自动驾驶车辆等实际应用至关重要。
与移动端/端侧相关性¶
- 端侧部署友好:终身记忆框架支持在边缘设备上持续学习和适应
- 开放词汇能力:移动机器人的目标可以是任意用户描述的物体,无需预定义类别
- 内存高效性:通过记忆描述符的结构化管理,优化边缘设备的存储利用
- 实时探索:多值前沿评分策略支持实时决策,适用于资源受限的移动平台
相关论文¶
- CMMR-VLN (2603.07997) 视觉-语言导航的持续多模态记忆检索
- MEM (2603.03596) 多尺度具身记忆用于视觉-语言-动作模型
- Chameleon (2603.24576) 长期机器人操作的的情景记忆