Venus: An Efficient Edge Memory-and-Retrieval System for VLM-based Online Video Understanding¶
论文基本信息¶
- arXiv ID: 2512.07344v2
- 发表日期: 2025-12-08
- 作者: Shengyuan Ye, Bei Ouyang, Tianyi Qian, Liekang Zeng, Mu Yuan, Xiaowen Chu, Weijie Hong, Xu Chen
- 方向: Edge Memory, Video Understanding, VLM Deployment
- 类别: cs.DC, cs.AI
核心摘要¶
Vision-language models (VLMs) 在在线视频理解应用中展现出强大的多模态理解能力,但现有研究忽视了部署侧的约束条件,导致实际应用中系统开销过大。Venus 提出了一个端侧记忆与检索系统,采用边缘-云端分解架构,将记忆构建和关键帧检索从云端下沉到边缘。系统分为两个阶段:摄入阶段通过场景分割和聚类处理流式边缘视频,用多模态嵌入模型将选定的关键帧编码,构建层次化记忆以实现高效存储和检索;查询阶段对输入查询建立记忆索引,并采用基于阈值的渐进式采样算法选择关键帧,在系统成本和推理精度之间实现自适应平衡。实验表明,Venus 在保持相当甚至更优推理精度的同时,将端到端响应延迟降低了 15x-131x,实现了秒级实时响应。
核心贡献¶
- 边缘-云端分解架构:将记忆构建和关键帧检索从云端下沉到边缘设备,解决在线视频理解中的系统开销问题
- 层次化记忆系统:通过场景分割和聚类构建分层记忆结构,支持高效存储和检索
- 渐进式关键帧采样算法:基于阈值的自适应采样,在成本和精度间平衡
- 多模态嵌入模型:用统一的多模态嵌入模型对关键帧和查询进行编码
为什么重要¶
在线视频理解是端侧 AI 的重要场景,但 VLM 部署面临巨大的计算和内存压力。Venus 通过创新的边缘记忆架构,将繁重的记忆操作卸载到边缘,同时保持云端的推理能力,实现了数量级的延迟降低。这对于移动端、车载、机器人等资源受限场景的在线视频分析具有重要意义。
与端侧/移动端的相关性¶
- 边缘部署:核心设计理念是将记忆操作下沉到边缘,而非依赖云端
- 实时性:15x-131x 延迟降低,支持秒级实时响应
- 资源受限场景:针对边缘设备的计算和内存约束设计
- 多模态:支持视觉+语言统一记忆,适用于移动端的视频分析场景
关键技术细节¶
系统架构¶
- 摄入阶段(Ingestion Stage)
- 流式视频处理:连续处理边缘摄像头输入的视频流
- 场景分割:将视频切分为语义连贯的场景单元
- 聚类:对分割后的片段进行聚类,选出代表性关键帧
- 多模态嵌入:用 VLM 将关键帧编码为向量表示
-
层次化记忆构建:按时间/语义层级组织记忆索引
-
查询阶段(Querying Stage)
- 查询编码:将自然语言查询用相同的多模态嵌入模型编码
- 记忆索引搜索:在层次化记忆中检索相关关键帧
- 渐进式采样:从大量候选帧中自适应选择最相关子集
- 边缘-云端协同:边缘完成记忆检索,云端进行最终 VLM 推理
性能指标¶
- 延迟降低:15x-131x(相比云端全量处理)
- 精度保持:相当或更优的推理精度
- 实时响应:秒级端到端延迟
- 边缘资源利用率:显著降低边缘到云端的带宽需求
局限性与未来方向¶
- 当前聚焦于视频理解,未来可扩展到其他多模态场景
- 边缘设备的异构性带来部署挑战
- 记忆的长期维护和更新机制待进一步研究