跳转至

📱 Mobile AIOS Wiki

RenderMem: Rendering as Spatial Memory Retrieval

YueLich/aios-wiki

RenderMem: Rendering as Spatial Memory Retrieval

论文信息¶

arXiv: 2603.14669
发表日期: 2026-03-15
作者: JooHyun Park, HyeongYeop Kang
方向: 空间记忆（具身 Agent 的渲染即记忆检索）

摘要¶

背景：具身推理本质上是视点相关的——什么可见、遮挡或可达高度依赖于 Agent 的站立位置。但现有空间记忆系统通常只存储多视角观测或物体中心抽象，难以进行精确几何 grounded 推理。

方法：RenderMem 将渲染作为 3D 世界表示和空间推理之间的接口。不同于存储固定观测，RenderMem 维护 3D 场景表示，并通过渲染从查询隐含的视点生成查询条件的视觉证据。这使 Agent 能直接推理任意视点的视线、可见性和遮挡。

实验结果：在 AI2-THOR 环境中，视点依赖的可见性和遮挡查询上持续优于先前的记忆基线。完全兼容现有视觉-语言模型，无需修改标准架构。

核心贡献¶

渲染即记忆接口：首次将神经渲染作为空间记忆访问机制，而非将记忆视为静态存储
3D 场景表示：维护动态 3D 场景而非固定观测，支持任意视点查询
几何 grounded 推理：直接推理视线、可见性和遮挡，无需中间表示
架构兼容性：无需修改 VLM 架构，可与任意视觉-语言模型集成

为什么重要¶

空间记忆是具身 Agent 的核心能力，但长期被低估：

视点连续性：Agent 在环境中移动时需要维持空间一致性，RenderMem 通过渲染动态重建而非静态存储解决
遮挡推理：这是 3D 场景理解的关键难题，RenderMem 将其形式化为渲染问题
突破存储瓶颈：传统方法存储大量多视角图像，RenderMem 仅需维护 3D 表示，存储效率更高

与端侧/移动端的相关性¶

对端侧具身 Agent 有直接影响：

移动机器人：空间记忆是机器人导航和操作的核心，端侧 3D 场景重建比存储视频更高效
AR 设备：眼镜端维护场景 3D 表示比存储海量照片更实际
隐私保护：3D 几何表示不保留原始像素，隐私保护更好

参考文献¶

arXiv: 2603.14669 | https://arxiv.org/abs/2603.14669