MapNav: Annotated Semantic Maps for Vision-and-Language Navigation¶
摘要¶
视觉-语言导航(VLN)是具身 AI 的关键任务,要求 Agent 在遵循自然语言指令的同时导航多样化的未见环境。传统方法严重依赖历史观测作为时空上下文进行决策,导致对长期记忆的利用不足。本文提出 MapNav,通过注释语义地图引入一种全新的记忆表征,将 Agent 的历史体验转化为结构化的空间知识。MapNav 支持高效的地图查询和推理,使 Agent 能够在导航过程中利用累积的环境记忆。
核心贡献¶
- 注释语义地图记忆:用结构化地图而非原始图像序列存储环境记忆
- 语言对齐的空间记忆:地图中的每个语义区域与语言描述对齐
- 高效地图查询:支持基于语言的空间推理查询
- 跨任务泛化:地图记忆可迁移到不同下游任务
- 增量地图构建:支持 Agent 在探索过程中逐步构建地图记忆
技术方法¶
语义地图表征¶
- 将环境表示为带有语义注释的拓扑地图
- 每个节点:空间位置 + 视觉特征 + 语义标签
- 边:空间连通性 + 导航关系
记忆构建¶
- Agent 探索环境时构建局部地图
- 将语言指令中的目标与地图节点对齐
- 在地图上存储路径和决策上下文
导航推理¶
- 给定语言指令,查询地图获取相关记忆
- 支持"之前去过的地方"、"目标在哪里"等空间推理
- 融合地图记忆与实时感知
为什么重要¶
MapNav 展示了"空间记忆"对具身 Agent 的重要性。之前的 VLN 方法缺乏有效存储和利用历史探索结果的手段,MapNav 通过语义地图将感知序列化记忆转化为结构化知识,使得 Agent 能够真正"记住"去过的环境和学到的导航经验。
与移动端/端侧相关性¶
- 家庭机器人:记住房间布局和物品位置
- AR 导航:持久化空间记忆,支持室内导航
- 仓库机器人:构建和利用环境地图记忆
- 端侧地图存储:结构化地图比原始图像更节省存储空间
参考文献¶
- Lingfeng Zhang, Xiaoshuai Hao, Qinwen Xu, Qiang Zhang. "MapNav: A Novel Memory Representation via Annotated Semantic Maps for Vision-and-Language Navigation." arXiv:2502.13451, 2025.