跳转至

TeleMem: Building Long-Term and Multimodal Memory for Agentic AI

论文信息

  • 作者: Chunliang Chen, Ming Guan, Xiao Lin, Jiaxu Li, Luxi Lin, Qiyi Wang, Xiangyu Chen et al.
  • 提交日期: 2025-12-12
  • 方向: 多模态记忆 / 长期记忆 / 记忆系统

摘要

LLM在许多NLP任务上表现优异,但由于注意力机制限制,难以在扩展对话历史中保持长期交互。RAG虽然能缓解这一问题,但缺乏可靠的记忆更新和细化机制,导致schema驱动的幻觉、低效的写入操作和对多模态推理支持不足。

TeleMem是一种统一的长期多模态记忆系统,通过叙事动态提取(narrative dynamic extraction)维护一致的用户画像,确保只保留有对话依据的信息。进一步引入结构化写入管道,将记忆条目批量、检索、聚类、整合,显著提高存储效率、减少token使用、加速记忆操作。

结合多模态记忆模块和ReAct风格推理,配备"观察-思考-行动"闭环流程,能在长期上下文准确理解复杂视频内容。在ZH-4O长期角色扮演游戏基准上,TeleMem超越Mem0基线:准确率提升19%,token减少43%,速度提升2.1倍。

核心贡献

  1. 叙事动态提取:从对话中提取有依据的记忆,而非被动复制全部历史
  2. 结构化写入管道:批量、检索、聚类、整合四步走,减少冗余写入
  3. 多模态记忆模块:支持视频等复杂模态的理解和记忆
  4. ReAct风格闭环推理:observe-think-act流程,处理复杂视频内容
  5. 存储效率提升:43% token减少,2.1倍加速

方法详解

问题背景

现有RAG系统的记忆问题: - Schema驱动幻觉:记忆以固定schema存储,无法捕获对话中的隐含信息 - 写入效率低:每次交互都写入完整历史,token开销巨大 - 多模态支持弱:缺乏有效的视频等多模态内容记忆机制

核心方法

  1. 叙事动态提取:只提取有明确对话依据的信息写入记忆,避免噪声累积
  2. 结构化写入管道
  3. 批量(Batch):积攒多个对话轮次
  4. 检索(Retrieve):查询相关现有记忆
  5. 聚类(Cluster):按主题/实体归类
  6. 整合(Consolidate):合并相似记忆,更新老旧信息
  7. 多模态记忆+ReAct:在长期视频理解中,通过"观察-思考-行动"闭环持续更新记忆

与移动端/端侧的相关性

TeleMem对端侧部署有重要意义: - 叙事提取减少写入量:不需要记录全量对话,节省存储和带宽 - 结构化整合减少冗余:相同实体/事件的记忆只存储一份 - ReAct风格减少推理开销:每次只需处理当前帧+记忆,而非全量历史

为什么重要

TeleMem展示了记忆系统从被动存储转向主动管理的可能性——通过叙事提取和结构化整合,让记忆只保留有价值的信息,避免无效膨胀。对长期运行的端侧Agent尤为重要,因为设备存储和计算资源都是有限的。

与其他方法对比

方法 写入机制 多模态 记忆组织 适用场景
TeleMem 叙事提取+结构化整合 支持视频 分层聚类 长期角色扮演
Mem0 全量存储 文本为主 向量检索 通用助手
M2A 双层混合记忆 支持多模态 Raw+Semantic双层 长期个性化

参考文献

  • 相关基准: ZH-4O长期角色扮演游戏基准