跳转至

title: WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning arXiv: 2512.02425 date: 2025-12-02 tags: [agent-memory, multimodal-memory, video-reasoning] reviewer: auto source: arXiv API


WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

摘要

视频大模型在理解短片段方面已展现出强大能力,但将其扩展到小时级甚至天级别的视频仍极具挑战,原因在于有限的上下文容量和关键视觉细节在抽象过程中的丢失。现有记忆增强方法通过利用视频片段的文本摘要来缓解这一问题,但严重依赖文本,在复杂场景推理时无法利用视觉证据。此外,记忆系统缺乏跨模态对齐和细粒度视觉细节的保留能力。WorldMM 提出动态多模态记忆系统,在长视频推理中同时保留和利用视觉与文本信息。

核心贡献

  1. 动态多模态记忆(WorldMM):专为长视频理解设计的多模态记忆系统
  2. 视觉-文本协同推理:不只依赖文本摘要,同时保留和利用原始视觉信息
  3. 细粒度视觉细节保留:通过特征压缩和分层存储保留关键视觉细节
  4. 跨模态记忆检索:支持根据文本查询检索对应视觉记忆
  5. 长时序视频理解:处理小时级视频的完整记忆系统

技术方法

WorldMM 的核心机制:

多模态记忆构建

  • 将视频分割为语义连贯的片段
  • 每个片段同时存储:视觉特征、音频特征、文本描述
  • 采用分层记忆结构:工作记忆(短期)/情境记忆(长期)

动态记忆更新

  • 基于重要性评分选择性保留视觉细节
  • 通过视频语义理解动态调整记忆粒度
  • 支持记忆的增量更新和遗忘

跨模态检索增强推理

  • 给定文本查询时,能回溯对应的视觉记忆
  • 支持"你在 XX 场景中看到了什么"这类视觉召回问题
  • 多模态联合推理避免纯文本摘要的信息损失

为什么重要

这是首个真正解决"长视频 Agent 如何保留和利用视觉记忆"问题的系统。之前的方法要么只生成文本摘要导致视觉信息丢失,要么缺乏有效的记忆检索机制。WorldMM 对构建多模态具身 Agent(能"看到"并记住过去的视觉体验)有重要价值。

与移动端/端侧相关性

  1. 移动端视频分析:手机拍摄的长视频需要有效记忆系统
  2. AR/智能眼镜:记录和回忆用户看到的视觉场景
  3. 可穿戴相机:连续视觉记忆的构建和检索
  4. 边缘计算:减少长视频传输带宽,本地多模态记忆检索

参考文献

  • Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang. "WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning." arXiv:2512.02425, 2025.