title: WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning arXiv: 2512.02425 date: 2025-12-02 tags: [agent-memory, multimodal-memory, video-reasoning] reviewer: auto source: arXiv API

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning¶

摘要¶

视频大模型在理解短片段方面已展现出强大能力，但将其扩展到小时级甚至天级别的视频仍极具挑战，原因在于有限的上下文容量和关键视觉细节在抽象过程中的丢失。现有记忆增强方法通过利用视频片段的文本摘要来缓解这一问题，但严重依赖文本，在复杂场景推理时无法利用视觉证据。此外，记忆系统缺乏跨模态对齐和细粒度视觉细节的保留能力。WorldMM 提出动态多模态记忆系统，在长视频推理中同时保留和利用视觉与文本信息。

核心贡献¶

动态多模态记忆（WorldMM）：专为长视频理解设计的多模态记忆系统
视觉-文本协同推理：不只依赖文本摘要，同时保留和利用原始视觉信息
细粒度视觉细节保留：通过特征压缩和分层存储保留关键视觉细节
跨模态记忆检索：支持根据文本查询检索对应视觉记忆
长时序视频理解：处理小时级视频的完整记忆系统

技术方法¶

WorldMM 的核心机制：

多模态记忆构建¶

将视频分割为语义连贯的片段
每个片段同时存储：视觉特征、音频特征、文本描述
采用分层记忆结构：工作记忆（短期）/情境记忆（长期）

动态记忆更新¶

基于重要性评分选择性保留视觉细节
通过视频语义理解动态调整记忆粒度
支持记忆的增量更新和遗忘

跨模态检索增强推理¶

给定文本查询时，能回溯对应的视觉记忆
支持"你在 XX 场景中看到了什么"这类视觉召回问题
多模态联合推理避免纯文本摘要的信息损失

为什么重要¶

这是首个真正解决"长视频 Agent 如何保留和利用视觉记忆"问题的系统。之前的方法要么只生成文本摘要导致视觉信息丢失，要么缺乏有效的记忆检索机制。WorldMM 对构建多模态具身 Agent（能"看到"并记住过去的视觉体验）有重要价值。

与移动端/端侧相关性¶

移动端视频分析：手机拍摄的长视频需要有效记忆系统
AR/智能眼镜：记录和回忆用户看到的视觉场景
可穿戴相机：连续视觉记忆的构建和检索
边缘计算：减少长视频传输带宽，本地多模态记忆检索

参考文献¶

Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang. "WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning." arXiv:2512.02425, 2025.