Venus: An Efficient Edge Memory-and-Retrieval System for VLM-based Online Video Understanding¶

论文基本信息¶

arXiv ID: 2512.07344v2
发表日期: 2025-12-08
作者: Shengyuan Ye, Bei Ouyang, Tianyi Qian, Liekang Zeng, Mu Yuan, Xiaowen Chu, Weijie Hong, Xu Chen
方向: Edge Memory, Video Understanding, VLM Deployment
类别: cs.DC, cs.AI

核心摘要¶

Vision-language models (VLMs) 在在线视频理解应用中展现出强大的多模态理解能力，但现有研究忽视了部署侧的约束条件，导致实际应用中系统开销过大。Venus 提出了一个端侧记忆与检索系统，采用边缘-云端分解架构，将记忆构建和关键帧检索从云端下沉到边缘。系统分为两个阶段：摄入阶段通过场景分割和聚类处理流式边缘视频，用多模态嵌入模型将选定的关键帧编码，构建层次化记忆以实现高效存储和检索；查询阶段对输入查询建立记忆索引，并采用基于阈值的渐进式采样算法选择关键帧，在系统成本和推理精度之间实现自适应平衡。实验表明，Venus 在保持相当甚至更优推理精度的同时，将端到端响应延迟降低了 15x-131x，实现了秒级实时响应。

核心贡献¶

边缘-云端分解架构：将记忆构建和关键帧检索从云端下沉到边缘设备，解决在线视频理解中的系统开销问题
层次化记忆系统：通过场景分割和聚类构建分层记忆结构，支持高效存储和检索
渐进式关键帧采样算法：基于阈值的自适应采样，在成本和精度间平衡
多模态嵌入模型：用统一的多模态嵌入模型对关键帧和查询进行编码

为什么重要¶

在线视频理解是端侧 AI 的重要场景，但 VLM 部署面临巨大的计算和内存压力。Venus 通过创新的边缘记忆架构，将繁重的记忆操作卸载到边缘，同时保持云端的推理能力，实现了数量级的延迟降低。这对于移动端、车载、机器人等资源受限场景的在线视频分析具有重要意义。

与端侧/移动端的相关性¶

边缘部署：核心设计理念是将记忆操作下沉到边缘，而非依赖云端
实时性：15x-131x 延迟降低，支持秒级实时响应
资源受限场景：针对边缘设备的计算和内存约束设计
多模态：支持视觉+语言统一记忆，适用于移动端的视频分析场景

关键技术细节¶

系统架构¶

摄入阶段（Ingestion Stage）
流式视频处理：连续处理边缘摄像头输入的视频流
场景分割：将视频切分为语义连贯的场景单元
聚类：对分割后的片段进行聚类，选出代表性关键帧
多模态嵌入：用 VLM 将关键帧编码为向量表示
层次化记忆构建：按时间/语义层级组织记忆索引
查询阶段（Querying Stage）
查询编码：将自然语言查询用相同的多模态嵌入模型编码
记忆索引搜索：在层次化记忆中检索相关关键帧
渐进式采样：从大量候选帧中自适应选择最相关子集
边缘-云端协同：边缘完成记忆检索，云端进行最终 VLM 推理

性能指标¶

延迟降低：15x-131x（相比云端全量处理）
精度保持：相当或更优的推理精度
实时响应：秒级端到端延迟
边缘资源利用率：显著降低边缘到云端的带宽需求

局限性与未来方向¶

当前聚焦于视频理解，未来可扩展到其他多模态场景
边缘设备的异构性带来部署挑战
记忆的长期维护和更新机制待进一步研究