跳转至

📱 Mobile AIOS Wiki

VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

YueLich/aios-wiki

VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph

论文信息¶

作者: Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang (Alibaba-NLP)
提交日期: 2026-02-13
方向: 记忆检索 / 多模态RAG / 视觉记忆

摘要¶

传统RAG方法依赖线性交互历史，难以处理长上下文任务，尤其在涉及信息稀疏但token密集的视觉数据的迭代推理场景中表现尤为挣扎。为解决此问题，VimRAG提出了一种为文本、图像和视频的多模态检索增强推理而量身定制的框架。

核心思路：将推理过程建模为动态有向无环图（DAG），结构化组织Agent状态和检索到的多模态证据。在此结构化记忆基础上，引入图调制的视觉记忆编码机制——通过记忆节点在其图拓扑中的位置来评估其重要性，使模型能够动态为关键证据分配高分辨率token，同时压缩或丢弃无关线索。

核心贡献¶

动态有向无环图记忆结构：将Agent状态和检索到的多模态证据组织为DAG结构，突破线性历史的局限
图调制视觉记忆编码（Graph-Modulated Visual Memory Encoding）：根据节点拓扑位置评估记忆重要性，动态分配token预算
图引导策略优化（Graph-Guided Policy Optimization）：将逐步有效性与轨迹级奖励解耦，通过剪枝冗余动作对应的记忆节点实现细粒度信用分配
SOTA性能：在多种多模态RAG基准上均达到最优性能

方法详解¶

问题背景¶

传统RAG方法存在两个核心瓶颈： - 线性历史限制：按时间顺序存储交互历史，无法捕捉推理图中的多跳依赖关系 - 视觉token浪费：图像/视频帧包含大量稀疏信息，全量编码导致token开销巨大

核心方法¶

DAG结构化记忆：将推理过程建模为有向无环图，每个节点代表一个推理步骤或一条检索到的证据，边代表逻辑依赖关系
拓扑感知的重要性评分：根据节点在图中的位置（如中间节点、汇聚节点）评估其信息价值
动态token分配：高重要性节点获得更多视觉token，低重要性节点被压缩或丢弃
图引导优化：通过策略梯度优化，在训练过程中学习如何剪枝冗余记忆

为什么重要¶

VimRAG将图结构引入多模态记忆检索，为处理海量视觉上下文提供了一种结构化的解决思路。对于端侧Agent而言，DAG结构比线性历史更高效——可以跳过无关的视觉帧，只检索与当前推理路径相关的节点，大幅降低计算和存储开销。

与其他方法对比¶

方法	记忆结构	视觉处理	适用场景
VimRAG	动态DAG	拓扑感知动态编码	长视频+多跳推理
Mem0	向量数据库	全量编码	通用文本记忆
RAG	线性块	块级检索	短文本检索

参考文献¶

VimRAG GitHub: https://github.com/Alibaba-NLP/VRAG