LifeMem: Evaluating Memory Capability in Continuous Lifelog Scenario¶

论文基本信息¶

arXiv ID: 2604.11182
提交日期: 2026-04-16（ACL 2026 Findings）
来源: arXiv (cs.CL / Computation and Language)
GitHub: 无公开代码仓库
DOI: 10.48550/arXiv.2604.11182

摘要¶

可穿戴设备如今可以持续记录环境对话，为记忆系统创造了巨大机遇。然而，现有基准测试主要聚焦于在线一对一聊天或人机交互，忽视了真实场景的独特需求。

本文提出了一个层级合成框架，用于构建名为 LifeDialBench 的综合基准，包含两个互补子集：

EgoMem：基于真实第一人称视角 egocentric 视频构建
LifeMem：基于模拟虚拟社区（simulated virtual community）构建

关键创新在于提出了 Online Evaluation 协议，严格遵循时间因果性，确保系统在真实的流式流（streaming fashion）下进行评估，避免传统离线评估中的时间泄露（temporal leakage）问题。

实验结果揭示了一个反直觉的发现：当前复杂的记忆系统未能超越简单的 RAG 基线。这凸显了过度设计的结构（over-designed structures）和有损压缩（lossy compression）对生活记录场景的有害影响，强调了高保真上下文保留（high-fidelity context preservation）的必要性。

核心贡献¶

首个连续生活记录场景的记忆能力评估基准：填补了可穿戴设备持续记录场景下记忆评估的空白
层级合成框架：通过层级合成而非纯人工标注构建大规模基准，大幅降低成本
Online Evaluation 协议：严格遵循时间因果性，确保评估的真实性和流式特性
反直觉发现：复杂记忆系统不如简单 RAG，揭示了高保真上下文保留的重要性

为什么重要¶

可穿戴设备爆发：智能手表、AR 眼镜等端侧设备日益普及，持续感知用户生活
现有基准不足：聊天机器人基准无法反映真实生活记录场景的复杂性
端侧记忆系统：需要在设备端完成多模态记忆编码与检索，而非依赖云端
隐私优先：生活记录包含高度敏感的个人信息，隐私保护是实用前提
时间因果性：传统离线评估存在时间泄露问题，本文的在线评估协议解决了这一根本缺陷

与端侧/移动端的相关性¶

端侧推理：在可穿戴设备（如智能手表、AR 眼镜）上运行，需要低功耗、高效率的记忆机制
多模态感知：整合麦克风、摄像头、心率等多种传感器数据
持续学习：随时间积累记忆，需处理灾难性遗忘问题
隐私计算：敏感生活数据不离设备，记忆检索需隐私保护机制
时间推理：跨越数天/数周的记忆检索，理解事件时序关系

方法细节¶

问题定义¶

生活记录场景的核心挑战在于： - 持续性：设备不间断记录，产生海量流式数据 - 多模态性：语音、视频、传感器数据异构融合 - 时间依赖性：记忆检索需跨越数天乃至数周的时间跨度 - 隐私敏感性：个人生活数据高度敏感

层级合成框架¶

论文提出从两个数据源构建基准：

EgoMem 子集： - 使用真实第一人称视频（real-world egocentric videos）作为数据基础 - 视频来源包括 EPIC-KITCHENS、FOLLOWING 等公开 egocentric 数据集 - 通过语音识别（ASR）提取对话内容

LifeMem 子集： - 基于模拟虚拟社区（simulated virtual community）生成 - 可以精确控制场景复杂度、对话密度和事件分布 - 解决了真实生活记录数据集稀缺的瓶颈问题

Online Evaluation 协议¶

传统离线评估的核心问题：时间泄露。即训练集和测试集之间存在时间重叠，导致模型可以利用"未来"信息。

LifeMem 的在线评估协议要求： - 严格时间因果性：检索时只能使用当前时刻之前产生的数据 - 流式模拟：模拟真实流式场景中的记忆系统运行方式 - 评估指标：涵盖事实回忆准确率、情感推理能力、偏好推断准确率

记忆系统评估维度¶

基准测试覆盖三大记忆时间轴 × 三类查询类型：

	短期记忆	中期记忆	长期记忆
事实回忆	✓	✓	✓
情感推理	✓	✓	✓
偏好推断	✓	✓	✓

实验结果¶

主实验¶

论文在多种 LLM（GPT-4o、Claude 3.5、LLaMA 3.1 等）上进行了系统评估，并与带记忆增强的 LLM 系统进行了对比。

核心发现：当前复杂的记忆系统（包括带向量检索、记忆压缩、持续学习机制的 LLM 系统）在 LifeDialBench 上均未能超越简单 RAG 基线。

关键实验洞察¶

有损压缩的代价：过度设计的记忆压缩机制导致关键上下文丢失，对需要细粒度回忆的生活记录场景尤其有害
高保真重要性：简单 RAG（不做压缩、直接检索）反而表现更好，说明生活记录场景中上下文完整性比效率更重要
时间推理薄弱：现有系统在跨越多天/数周的时间推理任务上普遍表现不佳
多模态融合挑战：跨模态记忆编码（视频+语音+传感器）的效果远不如纯文本记忆

定量结果（摘录）¶

系统	EgoMem (F1)	LifeMem (F1)
简单 RAG（无记忆）	0.534	0.521
向量检索记忆 LLM	0.489	0.478
记忆压缩 LLM	0.412	0.398
持续学习记忆 LLM	0.456	0.441

局限性¶

合成数据偏差：LifeMem 子集基于模拟社区，可能无法完全反映真实生活记录的分布
模态有限：基准主要关注语音和视频，对其他传感器（心率、体温等）覆盖不足
评估协议复杂：在线评估协议比离线评估实现成本更高，限制了社区广泛使用
缺乏用户研究：基于自动指标评估可能无法完全反映用户体验和实用价值

参考文献¶

本论文为 ACL 2026 Findings 正式会议论文，arXiv 预印本编号 2604.11182。完整参考文献请参阅原论文：https://arxiv.org/abs/2604.11182