跳转至

📱 Mobile AIOS Wiki

Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

YueLich/aios-wiki

Mem-Gallery: Benchmarking Multimodal Long-Term Conversational Memory for MLLM Agents

论文基本信息¶

作者: Yuanchen Bei, Tianxin Wei, Xuying Ning
方向: 多模态长期对话记忆基准测试
应用: MLLM Agent 评估、对话系统

研究背景与问题¶

长期记忆是多模态大语言模型（MLLM）Agent 的关键能力，尤其在信息积累和演化的对话场景中。然而现有基准要么仅评估文本多会话记忆，要么在局部上下文中评估多模态理解，无法评估多模态记忆如何在长期对话轨迹中被保留、组织和演化。

核心方法：Mem-Gallery¶

Mem-Gallery 提出了首个多模态长期对话记忆基准：

多会话多模态评估：覆盖文本、图像、视频等多种模态的长期记忆保持
对话轨迹建模：评估信息如何在多轮对话中积累和演化
多维度评估指标：记忆的准确性、相关性、完整性等多维度评估

核心贡献¶

首个多模态长期对话记忆基准：填补了该领域的评估空白
全面的评估维度：覆盖保留、组织、演化三个记忆核心维度
推动 MLLM Agent 记忆研究：为多模态记忆系统的研发提供标准化评估

为什么重要¶

多模态 Agent 在现实应用中需要处理跨时间、多模态的复杂对话。Mem-Gallery 为该领域提供了首个系统性评估框架，将极大推动多模态长期记忆技术的发展。

与端侧/移动端的相关性¶

移动端智能助手需要长期记住用户的偏好和对话历史。Mem-Gallery 的评估框架可直接用于指导端侧多模态记忆系统的设计与优化。

参考文献¶

原文: arXiv:2601.03515