RenderMem: Rendering as Spatial Memory Retrieval
论文信息¶
- arXiv: 2603.14669
- 发表日期: 2026-03-15
- 作者: JooHyun Park, HyeongYeop Kang
- 方向: 空间记忆(具身 Agent 的渲染即记忆检索)
摘要¶
背景:具身推理本质上是视点相关的——什么可见、遮挡或可达高度依赖于 Agent 的站立位置。但现有空间记忆系统通常只存储多视角观测或物体中心抽象,难以进行精确几何 grounded 推理。
方法:RenderMem 将渲染作为 3D 世界表示和空间推理之间的接口。不同于存储固定观测,RenderMem 维护 3D 场景表示,并通过渲染从查询隐含的视点生成查询条件的视觉证据。这使 Agent 能直接推理任意视点的视线、可见性和遮挡。
实验结果:在 AI2-THOR 环境中,视点依赖的可见性和遮挡查询上持续优于先前的记忆基线。完全兼容现有视觉-语言模型,无需修改标准架构。
核心贡献¶
- 渲染即记忆接口:首次将神经渲染作为空间记忆访问机制,而非将记忆视为静态存储
- 3D 场景表示:维护动态 3D 场景而非固定观测,支持任意视点查询
- 几何 grounded 推理:直接推理视线、可见性和遮挡,无需中间表示
- 架构兼容性:无需修改 VLM 架构,可与任意视觉-语言模型集成
为什么重要¶
空间记忆是具身 Agent 的核心能力,但长期被低估:
- 视点连续性:Agent 在环境中移动时需要维持空间一致性,RenderMem 通过渲染动态重建而非静态存储解决
- 遮挡推理:这是 3D 场景理解的关键难题,RenderMem 将其形式化为渲染问题
- 突破存储瓶颈:传统方法存储大量多视角图像,RenderMem 仅需维护 3D 表示,存储效率更高
与端侧/移动端的相关性¶
对端侧具身 Agent 有直接影响:
- 移动机器人:空间记忆是机器人导航和操作的核心,端侧 3D 场景重建比存储视频更高效
- AR 设备:眼镜端维护场景 3D 表示比存储海量照片更实际
- 隐私保护:3D 几何表示不保留原始像素,隐私保护更好
参考文献¶
- arXiv: 2603.14669 | https://arxiv.org/abs/2603.14669