Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios
论文信息¶
- arXiv: 2605.06185
- 作者: Peizheng Yan, Yu Zhao, Liang Xie, Juntong Qi, Mingming Wang, Erwei Yin
- 提交日期: 2026-05-07
- 方向: 记忆检索 / 视频推理 / 因果 RAG
- 类别: cs.AI
摘要¶
近期大型视觉-语言模型在短中视频理解上已取得优异表现,但在超长乃至无限视频推理上仍然不足——模型必须在延伸的时间跨度内保持连贯记忆,并推断跨时间距离的因果依赖关系。现有端到端视频理解方法受限于自注意力的 O(n²) 复杂度,而近期的检索增强生成(RAG)方法仍存在碎片化片段级记忆、弱时间/因果结构建模、高存储和在线推理成本等问题。
本文提出 Event-Causal RAG,一个用于超长视频推理的轻量级检索增强框架。与固定长度片段索引不同,本方法: 1. 将视频内容组织为事件层级结构 2. 建立事件间的因果关系图 3. 支持跨时间距离的因果推理检索
核心贡献¶
- 事件-因果记忆建模:
- 将视频内容抽象为事件节点,而非固定长度片段
-
事件间通过因果边连接,支持跨时间推理
-
层级索引结构:
- 顶层:事件摘要(粗粒度时间推理)
- 底层:具体视觉片段(细粒度内容检索)
-
因果图:跨事件依赖关系
-
轻量级检索机制:
- 不依赖端到端注意力,O(n) 复杂度
- 支持无限长度视频的流式处理
-
记忆存储成本大幅降低
-
对 Agent 记忆系统的启示:
- 记忆不是扁平的:事件层级结构比片段列表更符合人类记忆的组织方式
- 因果关系是记忆的核心:记忆的价值在于能支撑因果推理
- 持续记忆的流式更新:新事件不断添加到记忆,无需重建索引
为什么重要¶
对 Agent 记忆系统而言,Event-Causal RAG 提供了处理长程经验的关键思路:
- 时间与因果的统一:传统 RAG 只处理语义相似性,忽略时间和因果关系。但 Agent 的经验记忆需要因果结构来支撑"因为...所以..."类型的推理
- 记忆的层级组织:从具体片段到抽象事件的记忆分层,与 Agent 的工作记忆→情景记忆→语义记忆层级对应
- 无限增长的记忆:传统方法记忆增长带来 O(n²) 成本,Event-Causal RAG 通过索引结构解决了这一问题
与端侧/移动端的相关性¶
- 移动端视频理解:手机拍摄的长时间视频需要持久记忆系统支持
- 可穿戴相机/AR 设备:连续记录的场景需要超长视频记忆系统
- 流式处理:无需等待完整视频,实时更新记忆
- 内存效率:O(n) 检索复杂度适合资源受限设备
- 隐私保护:事件抽象提供了内容脱敏的可能性