跳转至

Interactive Episodic Memory with User Feedback

论文信息

  • 作者: Nikesh Subedi, Loris Bazzani, Ziad Al-Halah
  • 提交日期: 2026-04-27
  • 方向: 情景记忆 / 交互式检索 / 第一人称视频理解

摘要

在自然语言查询的情景记忆(EM-NLQ)中,用户可能提问(如"我把马克杯放哪儿了?"),需要在用户视角的长第一人称视频中搜索来回答。然而,查询可能是模糊或不完整的,导致错误回答。当前方法忽视了这个关键问题,以单次方式处理EM-NLQ,限制了其在现实场景中的适用性。本文首次系统研究交互式情景记忆,通过用户反馈消除查询歧义。

核心贡献

  1. 交互式EM-NLQ设置:用户可提供反馈来消除查询歧义,而非单次检索
  2. 反馈驱动的记忆更新:根据用户反馈调整记忆检索策略
  3. 歧义感知检索:显式建模查询的不确定性,在不确定时主动请求反馈
  4. 开放词汇视频定位:支持任意自然语言查询,不限于预定义类别

方法详解

问题设置: - 用户提出模糊查询(如"我把杯子放哪儿了?"——哪个杯子?什么时候?) - 系统返回候选答案 - 用户提供反馈(确认/纠正) - 系统利用反馈更新检索,重新搜索

歧义建模: - 查询歧义分数:衡量查询的确定性 - 高歧义时,主动请求用户澄清 - 低歧义时,直接返回答案

记忆结构: - 视频帧 + 时间戳 + 视觉概念 + 交互对象 - 支持按时间、空间、对象等多维度检索

为什么重要

首个系统研究交互式情景记忆的工作。真实世界的查询往往是模糊的,单次检索无法处理这种模糊性。交互式设置更接近人类记忆的查询方式,对于构建实用的个人记忆Agent有重要意义。

与端侧/移动端的相关性

  • 移动端第一人称视频记录场景(AR眼镜、智能相机)需要本地记忆系统
  • 用户反馈机制适合移动端交互
  • 歧义感知检索减少不必要的视频扫描,降低计算开销
  • 适合可穿戴设备的持续视觉记忆