StreamMeCo: Streaming Memory Compression for Video Understanding Agents¶

论文基本信息¶

作者: Junnan Liu, Chi Wang, Yongchao Jin, Yu Liu, Xianglong Liu
arXiv: https://arxiv.org/abs/2604.09000
领域: cs.CV, cs.AI

摘要¶

视频理解 Agent 需要处理长视频流，但视频数据量巨大导致记忆存储成为瓶颈。StreamMeCo 提出面向视频流的在线记忆压缩框架，在视频帧进入记忆时就判断其价值并动态压缩或丢弃。该方法结合视觉语义重要性（哪些帧包含关键事件）和时序冗余性（哪些帧可被后续帧替代），实现自适应的记忆管理。在长视频理解任务上，StreamMeCo 在保持 94% 准确率的同时，将视频记忆存储减少 78%。

核心贡献¶

Streaming Memory Compression: 首个面向视频流的在线记忆压缩框架
双重要性评估: 结合语义重要性 + 时序冗余性双重判断记忆价值
78% 存储减少: 在保持 94% 准确率下实现显著存储节省
Online Operation: 无需离线批处理，视频帧实时处理并更新记忆
视频理解通用: 可与任何视频理解模型集成，适用于视频 Agent

研究背景与问题¶

视频 Agent（如监控分析、自动驾驶记录、机器人视觉）需要处理连续视频流，1 分钟视频可能包含 1800 帧（30fps），远超任何 LLM 的上下文窗口。传统方法依赖离线批处理压缩，但视频 Agent 需要实时决策，无法等待离线处理。

核心方法¶

Semantic Importance Score: 评估每帧的语义重要性（事件检测、异常检测）
Temporal Redundancy Score: 评估每帧与已存储帧的时序冗余度
Adaptive Compression Policy: 结合双重评分决定：保留 / 轻压缩 / 重压缩 / 丢弃
Memory Budget Scheduler: 根据可用存储动态调整压缩率，保证记忆总量不超标
Key-frame Memory Bank: 维护一个关键帧记忆库，确保核心视觉信息不丢失

为什么重要¶

StreamMeCo 将在线记忆压缩引入视频理解 Agent，解决了视频流实时处理的记忆瓶颈问题。78% 存储减少和 94% 准确率保持的组合，使其成为视频 Agent 实用化的重要一步。

与移动端/端侧相关性¶

实时流处理: 在线压缩对车载记录仪、监控摄像头等端侧设备至关重要
存储受限环境: 78% 存储减少使端侧设备可以缓存更长时间的视频记忆
低功耗设计: 无需 GPU 批处理，适合移动端低功耗推理
与视觉语言模型结合: 可作为 VLM 的记忆前端，减少输入 token 数量