TeleMem: Building Long-Term and Multimodal Memory for Agentic AI
论文信息¶
- 作者: Chunliang Chen, Ming Guan, Xiao Lin, Jiaxu Li, Luxi Lin, Qiyi Wang, Xiangyu Chen et al.
- 提交日期: 2025-12-12
- 方向: 多模态记忆 / 长期记忆 / 记忆系统
摘要¶
LLM在许多NLP任务上表现优异,但由于注意力机制限制,难以在扩展对话历史中保持长期交互。RAG虽然能缓解这一问题,但缺乏可靠的记忆更新和细化机制,导致schema驱动的幻觉、低效的写入操作和对多模态推理支持不足。
TeleMem是一种统一的长期多模态记忆系统,通过叙事动态提取(narrative dynamic extraction)维护一致的用户画像,确保只保留有对话依据的信息。进一步引入结构化写入管道,将记忆条目批量、检索、聚类、整合,显著提高存储效率、减少token使用、加速记忆操作。
结合多模态记忆模块和ReAct风格推理,配备"观察-思考-行动"闭环流程,能在长期上下文准确理解复杂视频内容。在ZH-4O长期角色扮演游戏基准上,TeleMem超越Mem0基线:准确率提升19%,token减少43%,速度提升2.1倍。
核心贡献¶
- 叙事动态提取:从对话中提取有依据的记忆,而非被动复制全部历史
- 结构化写入管道:批量、检索、聚类、整合四步走,减少冗余写入
- 多模态记忆模块:支持视频等复杂模态的理解和记忆
- ReAct风格闭环推理:observe-think-act流程,处理复杂视频内容
- 存储效率提升:43% token减少,2.1倍加速
方法详解¶
问题背景¶
现有RAG系统的记忆问题: - Schema驱动幻觉:记忆以固定schema存储,无法捕获对话中的隐含信息 - 写入效率低:每次交互都写入完整历史,token开销巨大 - 多模态支持弱:缺乏有效的视频等多模态内容记忆机制
核心方法¶
- 叙事动态提取:只提取有明确对话依据的信息写入记忆,避免噪声累积
- 结构化写入管道:
- 批量(Batch):积攒多个对话轮次
- 检索(Retrieve):查询相关现有记忆
- 聚类(Cluster):按主题/实体归类
- 整合(Consolidate):合并相似记忆,更新老旧信息
- 多模态记忆+ReAct:在长期视频理解中,通过"观察-思考-行动"闭环持续更新记忆
与移动端/端侧的相关性¶
TeleMem对端侧部署有重要意义: - 叙事提取减少写入量:不需要记录全量对话,节省存储和带宽 - 结构化整合减少冗余:相同实体/事件的记忆只存储一份 - ReAct风格减少推理开销:每次只需处理当前帧+记忆,而非全量历史
为什么重要¶
TeleMem展示了记忆系统从被动存储转向主动管理的可能性——通过叙事提取和结构化整合,让记忆只保留有价值的信息,避免无效膨胀。对长期运行的端侧Agent尤为重要,因为设备存储和计算资源都是有限的。
与其他方法对比¶
| 方法 | 写入机制 | 多模态 | 记忆组织 | 适用场景 |
|---|---|---|---|---|
| TeleMem | 叙事提取+结构化整合 | 支持视频 | 分层聚类 | 长期角色扮演 |
| Mem0 | 全量存储 | 文本为主 | 向量检索 | 通用助手 |
| M2A | 双层混合记忆 | 支持多模态 | Raw+Semantic双层 | 长期个性化 |
参考文献¶
- 相关基准: ZH-4O长期角色扮演游戏基准