title: M3: 3D-Spatial MultiModal Memory arXiv: 2503.16413 date: 2025-03-20 tags: [agent-memory, multimodal-memory, spatial-memory, scene-understanding] reviewer: auto source: arXiv API

M3: 3D-Spatial MultiModal Memory¶

摘要¶

本文提出 3D Spatial MultiModal Memory (M3)，一种多模态记忆系统，通过视频源保留中等尺度静态场景的信息用于视觉感知。M3 通过将 3D Gaussian Splatting 技术与基础模型结合，构建能在不同粒度上渲染特征表征的多模态记忆，涵盖广泛的知识。在特征 splatting 研究中，文章识别出先前工作的两个关键挑战：(1) 计算和内存成本高；(2) 难以处理动态场景元素。提出解耦的高斯表征和高效的局部-全局特征聚合方法。

核心贡献¶

3D Gaussian Splatting 用于记忆：用 3DGS 表达场景的多模态记忆
多粒度特征渲染：从粗到细的场景记忆访问
解耦高斯表征：分离静态和动态场景元素
高效局部-全局聚合：减少计算和内存开销
即插即用的感知增强：可与任意视觉模型结合

技术方法¶

3D 高斯记忆表征¶

将场景表示为 3D Gaussian 分布的集合
每个高斯包含位置、旋转、尺度、颜色、特征向量
支持新颖视角合成和特征插值

多模态记忆构建¶

从视频流中提取视觉特征
同时编码深度、语义、几何信息
通过 3DGS 建立场景的统一记忆表征

感知任务增强¶

给定当前视角，渲染对应的记忆特征
支持场景理解、定位、重识别等下游任务
减少重复感知计算

为什么重要¶

M3 展示了"3D 场景记忆"作为 Agent 视觉感知基础的可能性。传统方法每次都重新感知环境，而 M3 允许 Agent"记住"已探索的场景，在需要时快速渲染记忆中的视觉信息。这对家庭机器人、AR 系统等需要环境持久记忆的应用有重要价值。

与移动端/端侧相关性¶

家庭机器人：记住房间布局，避免重复探索
AR 眼镜：持久化空间记忆，减少计算
自动驾驶：构建和利用局部地图记忆
端侧效率：减少重复感知，大幅降低功耗

参考文献¶

Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng. "M3: 3D-Spatial MultiModal Memory." arXiv:2503.16413, 2025.