Advancing Multimodal Agent Reasoning with Long-Term Neuro-Symbolic Memory
论文基本信息¶
- 作者: Rongjie Jiang, Jianwei Wang, Gengda Zhao
- 方向: 神经符号记忆、多模态 Agent 推理
- 应用: 具身智能、开放世界 Agent
研究背景与问题¶
大语言模型的最新进展推动了开放世界多模态环境中的智能 Agent 发展。为支持长期推理,现有 Agent 通常配备外部记忆系统。然而大多数多模态 Agent 记忆主要依赖神经表示和基于向量的检索——这些方法适合归纳、直观的推理,但在支持分析性、演绎推理方面存在根本性局限,而这种推理对现实世界的决策至关重要。
核心方法¶
本文提出了神经符号长期记忆系统:
- 神经符号记忆架构:融合神经表示(灵活性)与符号表示(可解释性)
- 混合检索机制:结合向量相似度检索与符号逻辑推理
- 长期推理增强:支持跨时间窗口的复杂演绎推理
核心贡献¶
- 神经符号记忆融合:首次将神经与符号记忆深度融合用于多模态 Agent
- 双重推理支持:同时支持直觉归纳和逻辑演绎推理
- 开放世界验证:在复杂多模态环境中验证了方法的有效性
为什么重要¶
传统纯神经记忆系统在需要精确逻辑推理的任务中表现不佳。神经符号记忆通过融合两种表示范式的优势,为构建既能"感知"又能"推理"的长期 Agent 系统提供了关键技术支持。
与端侧/移动端的相关性¶
端侧 Agent 需要在资源受限环境中进行复杂的长期推理。神经符号记忆的模块化设计便于在端侧部署,同时保持强大的推理能力。对移动机器人和自动驾驶等场景具有重要价值。
参考文献¶
- 原文: arXiv:2603.15280