跳转至

Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios

论文信息

  • arXiv: 2605.06185
  • 作者: Peizheng Yan, Yu Zhao, Liang Xie, Juntong Qi, Mingming Wang, Erwei Yin
  • 提交日期: 2026-05-07
  • 方向: 记忆检索 / 视频推理 / 因果 RAG
  • 类别: cs.AI

摘要

近期大型视觉-语言模型在短中视频理解上已取得优异表现,但在超长乃至无限视频推理上仍然不足——模型必须在延伸的时间跨度内保持连贯记忆,并推断跨时间距离的因果依赖关系。现有端到端视频理解方法受限于自注意力的 O(n²) 复杂度,而近期的检索增强生成(RAG)方法仍存在碎片化片段级记忆、弱时间/因果结构建模、高存储和在线推理成本等问题。

本文提出 Event-Causal RAG,一个用于超长视频推理的轻量级检索增强框架。与固定长度片段索引不同,本方法: 1. 将视频内容组织为事件层级结构 2. 建立事件间的因果关系图 3. 支持跨时间距离的因果推理检索

核心贡献

  1. 事件-因果记忆建模
  2. 将视频内容抽象为事件节点,而非固定长度片段
  3. 事件间通过因果边连接,支持跨时间推理

  4. 层级索引结构

  5. 顶层:事件摘要(粗粒度时间推理)
  6. 底层:具体视觉片段(细粒度内容检索)
  7. 因果图:跨事件依赖关系

  8. 轻量级检索机制

  9. 不依赖端到端注意力,O(n) 复杂度
  10. 支持无限长度视频的流式处理
  11. 记忆存储成本大幅降低

  12. 对 Agent 记忆系统的启示

  13. 记忆不是扁平的:事件层级结构比片段列表更符合人类记忆的组织方式
  14. 因果关系是记忆的核心:记忆的价值在于能支撑因果推理
  15. 持续记忆的流式更新:新事件不断添加到记忆,无需重建索引

为什么重要

对 Agent 记忆系统而言,Event-Causal RAG 提供了处理长程经验的关键思路:

  • 时间与因果的统一:传统 RAG 只处理语义相似性,忽略时间和因果关系。但 Agent 的经验记忆需要因果结构来支撑"因为...所以..."类型的推理
  • 记忆的层级组织:从具体片段到抽象事件的记忆分层,与 Agent 的工作记忆→情景记忆→语义记忆层级对应
  • 无限增长的记忆:传统方法记忆增长带来 O(n²) 成本,Event-Causal RAG 通过索引结构解决了这一问题

与端侧/移动端的相关性

  1. 移动端视频理解:手机拍摄的长时间视频需要持久记忆系统支持
  2. 可穿戴相机/AR 设备:连续记录的场景需要超长视频记忆系统
  3. 流式处理:无需等待完整视频,实时更新记忆
  4. 内存效率:O(n) 检索复杂度适合资源受限设备
  5. 隐私保护:事件抽象提供了内容脱敏的可能性