跳转至

RenderMem: Rendering as Spatial Memory Retrieval

论文信息

  • arXiv: 2603.14669
  • 发表日期: 2026-03-15
  • 作者: JooHyun Park, HyeongYeop Kang
  • 方向: 空间记忆(具身 Agent 的渲染即记忆检索)

摘要

背景:具身推理本质上是视点相关的——什么可见、遮挡或可达高度依赖于 Agent 的站立位置。但现有空间记忆系统通常只存储多视角观测或物体中心抽象,难以进行精确几何 grounded 推理。

方法:RenderMem 将渲染作为 3D 世界表示和空间推理之间的接口。不同于存储固定观测,RenderMem 维护 3D 场景表示,并通过渲染从查询隐含的视点生成查询条件的视觉证据。这使 Agent 能直接推理任意视点的视线、可见性和遮挡。

实验结果:在 AI2-THOR 环境中,视点依赖的可见性和遮挡查询上持续优于先前的记忆基线。完全兼容现有视觉-语言模型,无需修改标准架构。

核心贡献

  1. 渲染即记忆接口:首次将神经渲染作为空间记忆访问机制,而非将记忆视为静态存储
  2. 3D 场景表示:维护动态 3D 场景而非固定观测,支持任意视点查询
  3. 几何 grounded 推理:直接推理视线、可见性和遮挡,无需中间表示
  4. 架构兼容性:无需修改 VLM 架构,可与任意视觉-语言模型集成

为什么重要

空间记忆是具身 Agent 的核心能力,但长期被低估:

  • 视点连续性:Agent 在环境中移动时需要维持空间一致性,RenderMem 通过渲染动态重建而非静态存储解决
  • 遮挡推理:这是 3D 场景理解的关键难题,RenderMem 将其形式化为渲染问题
  • 突破存储瓶颈:传统方法存储大量多视角图像,RenderMem 仅需维护 3D 表示,存储效率更高

与端侧/移动端的相关性

对端侧具身 Agent 有直接影响:

  • 移动机器人:空间记忆是机器人导航和操作的核心,端侧 3D 场景重建比存储视频更高效
  • AR 设备:眼镜端维护场景 3D 表示比存储海量照片更实际
  • 隐私保护:3D 几何表示不保留原始像素,隐私保护更好

参考文献

  • arXiv: 2603.14669 | https://arxiv.org/abs/2603.14669