title: Memory-QA: Answering Recall Questions Based on Multimodal Memories arXiv: 2509.18436 date: 2025-09-22 tags: [agent-memory, multimodal-memory, memory-retrieval] reviewer: auto source: arXiv API
Memory-QA: Answering Recall Questions Based on Multimodal Memories¶
摘要¶
本文提出 Memory-QA,一个处理基于多模态记忆的召回问答的新任务。该任务涉及根据先前存储的多模态记忆回答回忆问题,包括创建面向任务的记忆、有效利用记忆中的时间和位置信息、以及综合多个记忆回答回忆问题。Memory-QA 提出了一个综合流程 Pensieve,集成了记忆特化的编码、跨模态对齐和情境推理模块。
核心贡献¶
- 新任务定义:Memory-QA — 基于多模态记忆的召回问答
- Pensieve 流程:集记忆创建、利用、推理于一体的完整管道
- 多模态记忆编码:统一处理视觉、文本、时空信息
- 时间/位置感知检索:利用记忆中的时间和位置线索进行精确召回
- 跨记忆综合:能够综合多个记忆片段回答复杂问题
技术方法¶
任务定义¶
给定: - 用户过去体验的多模态记录(视频/图像 + 文本注释) - 关于这些体验的召回问题(如"我上次去的那个餐厅叫什么?")
输出:准确回答用户问题
Pensieve 架构¶
- 记忆编码模块:将多模态输入编码为统一表示
- 时空对齐模块:建立不同模态间的时空对应关系
- 情境推理模块:基于问题类型选择和组合相关记忆
- 答案生成模块:综合记忆内容生成自然语言答案
为什么重要¶
这是首个明确定义"Agent 如何回答关于自身过去经历的问题"的任务。当前 RAG 系统擅长回答关于文档的问题,但无法回答"你记得我上次..."这类关于个人经历的问题。Memory-QA 为构建有真正个人记忆的 Agent 奠定了任务基础。
与移动端/端侧相关性¶
- 个人助理:回答"我上次把钥匙放哪了"这类日常回忆问题
- 健康监测:根据过去的活动和健康记录回答医疗相关问题
- 照片回忆:回答"我去年夏天去了哪些地方"这类视觉记忆问题
- 隐私保护:本地多模态记忆处理,避免云端泄露风险
参考文献¶
- Hongda Jiang, Xinyuan Zhang, Siddhant Garg, Rishab Arora. "Memory-QA: Answering Recall Questions Based on Multimodal Memories." arXiv:2509.18436, 2025.