title: WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning arXiv: 2512.02425 date: 2025-12-02 tags: [agent-memory, multimodal-memory, video-reasoning] reviewer: auto source: arXiv API
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning¶
摘要¶
视频大模型在理解短片段方面已展现出强大能力,但将其扩展到小时级甚至天级别的视频仍极具挑战,原因在于有限的上下文容量和关键视觉细节在抽象过程中的丢失。现有记忆增强方法通过利用视频片段的文本摘要来缓解这一问题,但严重依赖文本,在复杂场景推理时无法利用视觉证据。此外,记忆系统缺乏跨模态对齐和细粒度视觉细节的保留能力。WorldMM 提出动态多模态记忆系统,在长视频推理中同时保留和利用视觉与文本信息。
核心贡献¶
- 动态多模态记忆(WorldMM):专为长视频理解设计的多模态记忆系统
- 视觉-文本协同推理:不只依赖文本摘要,同时保留和利用原始视觉信息
- 细粒度视觉细节保留:通过特征压缩和分层存储保留关键视觉细节
- 跨模态记忆检索:支持根据文本查询检索对应视觉记忆
- 长时序视频理解:处理小时级视频的完整记忆系统
技术方法¶
WorldMM 的核心机制:
多模态记忆构建¶
- 将视频分割为语义连贯的片段
- 每个片段同时存储:视觉特征、音频特征、文本描述
- 采用分层记忆结构:工作记忆(短期)/情境记忆(长期)
动态记忆更新¶
- 基于重要性评分选择性保留视觉细节
- 通过视频语义理解动态调整记忆粒度
- 支持记忆的增量更新和遗忘
跨模态检索增强推理¶
- 给定文本查询时,能回溯对应的视觉记忆
- 支持"你在 XX 场景中看到了什么"这类视觉召回问题
- 多模态联合推理避免纯文本摘要的信息损失
为什么重要¶
这是首个真正解决"长视频 Agent 如何保留和利用视觉记忆"问题的系统。之前的方法要么只生成文本摘要导致视觉信息丢失,要么缺乏有效的记忆检索机制。WorldMM 对构建多模态具身 Agent(能"看到"并记住过去的视觉体验)有重要价值。
与移动端/端侧相关性¶
- 移动端视频分析:手机拍摄的长视频需要有效记忆系统
- AR/智能眼镜:记录和回忆用户看到的视觉场景
- 可穿戴相机:连续视觉记忆的构建和检索
- 边缘计算:减少长视频传输带宽,本地多模态记忆检索
参考文献¶
- Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang. "WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning." arXiv:2512.02425, 2025.