Interactive Episodic Memory with User Feedback

论文信息¶

作者: Nikesh Subedi, Loris Bazzani, Ziad Al-Halah
提交日期: 2026-04-27
方向: 情景记忆 / 交互式检索 / 第一人称视频理解

摘要¶

在自然语言查询的情景记忆（EM-NLQ）中，用户可能提问（如"我把马克杯放哪儿了？"），需要在用户视角的长第一人称视频中搜索来回答。然而，查询可能是模糊或不完整的，导致错误回答。当前方法忽视了这个关键问题，以单次方式处理EM-NLQ，限制了其在现实场景中的适用性。本文首次系统研究交互式情景记忆，通过用户反馈消除查询歧义。

核心贡献¶

交互式EM-NLQ设置：用户可提供反馈来消除查询歧义，而非单次检索
反馈驱动的记忆更新：根据用户反馈调整记忆检索策略
歧义感知检索：显式建模查询的不确定性，在不确定时主动请求反馈
开放词汇视频定位：支持任意自然语言查询，不限于预定义类别

方法详解¶

问题设置： - 用户提出模糊查询（如"我把杯子放哪儿了？"——哪个杯子？什么时候？） - 系统返回候选答案 - 用户提供反馈（确认/纠正） - 系统利用反馈更新检索，重新搜索

歧义建模： - 查询歧义分数：衡量查询的确定性 - 高歧义时，主动请求用户澄清 - 低歧义时，直接返回答案

记忆结构： - 视频帧 + 时间戳 + 视觉概念 + 交互对象 - 支持按时间、空间、对象等多维度检索

为什么重要¶

首个系统研究交互式情景记忆的工作。真实世界的查询往往是模糊的，单次检索无法处理这种模糊性。交互式设置更接近人类记忆的查询方式，对于构建实用的个人记忆Agent有重要意义。

与端侧/移动端的相关性¶

移动端第一人称视频记录场景（AR眼镜、智能相机）需要本地记忆系统
用户反馈机制适合移动端交互
歧义感知检索减少不必要的视频扫描，降低计算开销
适合可穿戴设备的持续视觉记忆