IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory¶
论文基本信息¶
- 作者: Weitong Kong, Di Wen, Kunyu Peng, David Schneider 等
- arXiv: https://arxiv.org/abs/2604.20136
- 代码: https://github.com/MKong17/IMPACT_CYCLE
摘要¶
长视频理解中的纠错代价高昂:现有 multimodal 流程产生不透明的整体输出,无法检查中间状态,迫使标注者从原始视频重建时间逻辑。核心瓶颈不仅是生成质量,还在于缺乏监督界面使人力投入与错误范围成比例。IMPACT-CYCLE 将长视频理解重新定义为基于共享语义记忆的迭代声明级维护——结构化版本化状态编码类型化声明、声明依赖图和来源日志。在权限合约下运作的角色专业化 Agent 将验证分解为局部对象关系正确性、跨时间一致性和全局语义连贯性,修正局限于结构依赖的声明。当自动证据不足时,系统升级到人工仲裁作为最高权限;依赖闭包重验证确保修正代价与错误范围成比例。实验在 VidOR 上展示了下游推理的实质性改进(VQA: 0.71 → 0.79)和 4.8 倍人工仲裁代价降低。
核心贡献¶
- Claim-level Semantic Memory: 以类型化声明和依赖图管理长视频语义记忆
- Contract-based Multi-Agent: 权限合约下的角色专业化 Agent 协作
- 4.8x Cost Reduction: 4.8 倍人工仲裁代价降低
- Proportional Error Correction: 修正代价与错误范围成比例
- VQA 0.71 → 0.79: 下游推理实质性改进
研究背景与问题¶
长视频理解中错误修正代价极高,因为需要从原始视频重建时间逻辑。传统 pipeline 无法检查中间状态,人工纠错必须从零开始。
核心方法¶
- Semantic Memory State: 结构化版本化记忆,编码声明、依赖图、来源日志
- Role-specialized Agents: 局部正确性、跨时间一致性、全局连贯性三个角色
- Authority Contract: 显式权限合约定义 Agent 的决策边界
- Human Escalation: 自动证据不足时升级到人工仲裁
- Dependency-closure Re-verification: 依赖闭包重验证确保修正代价可控
为什么重要¶
IMPACT-CYCLE 展示了如何在多 Agent 系统中维护共享语义记忆,并实现高效的人机协作修正。这对需要长视频理解的 Agent 系统(如视频助手、监控系统)有直接价值。
与移动端/端侧相关性¶
- 端侧视频理解: 移动端视频分析需要有效的记忆和修正机制
- 计算资源受限: 修正代价与错误范围成比例,适合资源受限场景
- 多 Agent 协作: 移动端多 Agent 系统协调的参考架构
- 长视频处理: 突破移动端上下文窗口限制的长视频处理方案