Bridging Modalities, Spanning Time: Structured Memory for Ultra-Long Agentic Video Reasoning
摘要¶
理解超长视频(如 egocentric 记录、直播或跨越数天至数周的监控录像)仍是重大挑战。即使拥有百万 token 上下文窗口,当前多模态 LLM 的帧预算也仅能覆盖数十分钟的密集采样视频,大部分证据在推理开始前就被丢弃了。记忆增强和 Agent 化方法虽有帮助,但其检索在模态间碎片化,且缺乏跨越数天至数周的长程叙事摘要。本文提出 MAGIC-Video,一个无需训练的框架,围绕多模态记忆图(multimodal memory graph)和交织的叙事链(narrative chain)构建:图通过六种类型边统一情景记忆、语义记忆和视觉内容并支持跨模态检索;链则提取长程实体传记和重复活动事件。推理时,Agent 循环将图检索与叙事事实注入交织,同时覆盖超长视频的模态和时间维度。在 EgoLifeQA、Ego-R1 和 MM-Lifelong 上,MAGIC-Video 一致超越通用、长视频和 Agent 基线系统,在每个基准上比之前最好的 Agent 系统分别提升 10.1、7.4 和 5.9 分。
核心贡献¶
- 多模态记忆图:统一情景记忆、语义记忆和视觉内容,通过六种类型边连接,支持跨模态检索
- 叙事链(NARRATIVE CHAIN):提取长程实体传记(entity biographies)和重复活动事件(recurring activity events)
- Agent 推理循环:将图检索与叙事事实注入交织,同时覆盖超长视频的模态和时间维度
- 无需训练:完全基于现有组件的组合式设计,可与任意多模态 LLM 集成
为什么重要¶
超长视频理解是端侧智能(监控、穿戴设备、机器人)的核心场景。现有方法要么受限于上下文窗口(无法覆盖数天视频),要么检索碎片化(各模态独立检索缺乏统一视图)。MAGIC-Video 通过记忆图+叙事链的混合架构,首次实现了跨模态、跨时间的统一记忆检索,为长期视频分析提供了可扩展的解决方案。
与移动端/端侧相关性¶
- 穿戴设备 egocentric 视频:MAGIC-Video 的 EgoLifeQA 基准直接对应第一人称视频记忆场景,是智能眼镜/AR 设备的潜在应用
- 轻量化设计:无需训练、组合式架构,便于在端侧部署多模态记忆模块
- 长时间记忆:叙事链提取的"实体传记"模式类似移动端的"人物/地点/活动"长期记忆组织方式