title: M3: 3D-Spatial MultiModal Memory arXiv: 2503.16413 date: 2025-03-20 tags: [agent-memory, multimodal-memory, spatial-memory, scene-understanding] reviewer: auto source: arXiv API
M3: 3D-Spatial MultiModal Memory¶
摘要¶
本文提出 3D Spatial MultiModal Memory (M3),一种多模态记忆系统,通过视频源保留中等尺度静态场景的信息用于视觉感知。M3 通过将 3D Gaussian Splatting 技术与基础模型结合,构建能在不同粒度上渲染特征表征的多模态记忆,涵盖广泛的知识。在特征 splatting 研究中,文章识别出先前工作的两个关键挑战:(1) 计算和内存成本高;(2) 难以处理动态场景元素。提出解耦的高斯表征和高效的局部-全局特征聚合方法。
核心贡献¶
- 3D Gaussian Splatting 用于记忆:用 3DGS 表达场景的多模态记忆
- 多粒度特征渲染:从粗到细的场景记忆访问
- 解耦高斯表征:分离静态和动态场景元素
- 高效局部-全局聚合:减少计算和内存开销
- 即插即用的感知增强:可与任意视觉模型结合
技术方法¶
3D 高斯记忆表征¶
- 将场景表示为 3D Gaussian 分布的集合
- 每个高斯包含位置、旋转、尺度、颜色、特征向量
- 支持新颖视角合成和特征插值
多模态记忆构建¶
- 从视频流中提取视觉特征
- 同时编码深度、语义、几何信息
- 通过 3DGS 建立场景的统一记忆表征
感知任务增强¶
- 给定当前视角,渲染对应的记忆特征
- 支持场景理解、定位、重识别等下游任务
- 减少重复感知计算
为什么重要¶
M3 展示了"3D 场景记忆"作为 Agent 视觉感知基础的可能性。传统方法每次都重新感知环境,而 M3 允许 Agent"记住"已探索的场景,在需要时快速渲染记忆中的视觉信息。这对家庭机器人、AR 系统等需要环境持久记忆的应用有重要价值。
与移动端/端侧相关性¶
- 家庭机器人:记住房间布局,避免重复探索
- AR 眼镜:持久化空间记忆,减少计算
- 自动驾驶:构建和利用局部地图记忆
- 端侧效率:减少重复感知,大幅降低功耗
参考文献¶
- Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng. "M3: 3D-Spatial MultiModal Memory." arXiv:2503.16413, 2025.