跳转至

title: M3: 3D-Spatial MultiModal Memory arXiv: 2503.16413 date: 2025-03-20 tags: [agent-memory, multimodal-memory, spatial-memory, scene-understanding] reviewer: auto source: arXiv API


M3: 3D-Spatial MultiModal Memory

摘要

本文提出 3D Spatial MultiModal Memory (M3),一种多模态记忆系统,通过视频源保留中等尺度静态场景的信息用于视觉感知。M3 通过将 3D Gaussian Splatting 技术与基础模型结合,构建能在不同粒度上渲染特征表征的多模态记忆,涵盖广泛的知识。在特征 splatting 研究中,文章识别出先前工作的两个关键挑战:(1) 计算和内存成本高;(2) 难以处理动态场景元素。提出解耦的高斯表征和高效的局部-全局特征聚合方法。

核心贡献

  1. 3D Gaussian Splatting 用于记忆:用 3DGS 表达场景的多模态记忆
  2. 多粒度特征渲染:从粗到细的场景记忆访问
  3. 解耦高斯表征:分离静态和动态场景元素
  4. 高效局部-全局聚合:减少计算和内存开销
  5. 即插即用的感知增强:可与任意视觉模型结合

技术方法

3D 高斯记忆表征

  • 将场景表示为 3D Gaussian 分布的集合
  • 每个高斯包含位置、旋转、尺度、颜色、特征向量
  • 支持新颖视角合成和特征插值

多模态记忆构建

  • 从视频流中提取视觉特征
  • 同时编码深度、语义、几何信息
  • 通过 3DGS 建立场景的统一记忆表征

感知任务增强

  • 给定当前视角,渲染对应的记忆特征
  • 支持场景理解、定位、重识别等下游任务
  • 减少重复感知计算

为什么重要

M3 展示了"3D 场景记忆"作为 Agent 视觉感知基础的可能性。传统方法每次都重新感知环境,而 M3 允许 Agent"记住"已探索的场景,在需要时快速渲染记忆中的视觉信息。这对家庭机器人、AR 系统等需要环境持久记忆的应用有重要价值。

与移动端/端侧相关性

  1. 家庭机器人:记住房间布局,避免重复探索
  2. AR 眼镜:持久化空间记忆,减少计算
  3. 自动驾驶:构建和利用局部地图记忆
  4. 端侧效率:减少重复感知,大幅降低功耗

参考文献

  • Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng. "M3: 3D-Spatial MultiModal Memory." arXiv:2503.16413, 2025.