Interactive Episodic Memory with User Feedback
论文信息¶
- 作者: Nikesh Subedi, Loris Bazzani, Ziad Al-Halah
- 提交日期: 2026-04-27
- 方向: 情景记忆 / 交互式检索 / 第一人称视频理解
摘要¶
在自然语言查询的情景记忆(EM-NLQ)中,用户可能提问(如"我把马克杯放哪儿了?"),需要在用户视角的长第一人称视频中搜索来回答。然而,查询可能是模糊或不完整的,导致错误回答。当前方法忽视了这个关键问题,以单次方式处理EM-NLQ,限制了其在现实场景中的适用性。本文首次系统研究交互式情景记忆,通过用户反馈消除查询歧义。
核心贡献¶
- 交互式EM-NLQ设置:用户可提供反馈来消除查询歧义,而非单次检索
- 反馈驱动的记忆更新:根据用户反馈调整记忆检索策略
- 歧义感知检索:显式建模查询的不确定性,在不确定时主动请求反馈
- 开放词汇视频定位:支持任意自然语言查询,不限于预定义类别
方法详解¶
问题设置: - 用户提出模糊查询(如"我把杯子放哪儿了?"——哪个杯子?什么时候?) - 系统返回候选答案 - 用户提供反馈(确认/纠正) - 系统利用反馈更新检索,重新搜索
歧义建模: - 查询歧义分数:衡量查询的确定性 - 高歧义时,主动请求用户澄清 - 低歧义时,直接返回答案
记忆结构: - 视频帧 + 时间戳 + 视觉概念 + 交互对象 - 支持按时间、空间、对象等多维度检索
为什么重要¶
首个系统研究交互式情景记忆的工作。真实世界的查询往往是模糊的,单次检索无法处理这种模糊性。交互式设置更接近人类记忆的查询方式,对于构建实用的个人记忆Agent有重要意义。
与端侧/移动端的相关性¶
- 移动端第一人称视频记录场景(AR眼镜、智能相机)需要本地记忆系统
- 用户反馈机制适合移动端交互
- 歧义感知检索减少不必要的视频扫描,降低计算开销
- 适合可穿戴设备的持续视觉记忆