Advancing Multimodal Agent Reasoning with Long-Term Neuro-Symbolic Memory

论文基本信息¶

作者: Rongjie Jiang, Jianwei Wang, Gengda Zhao
方向: 神经符号记忆、多模态 Agent 推理
应用: 具身智能、开放世界 Agent

研究背景与问题¶

大语言模型的最新进展推动了开放世界多模态环境中的智能 Agent 发展。为支持长期推理，现有 Agent 通常配备外部记忆系统。然而大多数多模态 Agent 记忆主要依赖神经表示和基于向量的检索——这些方法适合归纳、直观的推理，但在支持分析性、演绎推理方面存在根本性局限，而这种推理对现实世界的决策至关重要。

核心方法¶

本文提出了神经符号长期记忆系统：

神经符号记忆架构：融合神经表示（灵活性）与符号表示（可解释性）
混合检索机制：结合向量相似度检索与符号逻辑推理
长期推理增强：支持跨时间窗口的复杂演绎推理

核心贡献¶

神经符号记忆融合：首次将神经与符号记忆深度融合用于多模态 Agent
双重推理支持：同时支持直觉归纳和逻辑演绎推理
开放世界验证：在复杂多模态环境中验证了方法的有效性

为什么重要¶

传统纯神经记忆系统在需要精确逻辑推理的任务中表现不佳。神经符号记忆通过融合两种表示范式的优势，为构建既能"感知"又能"推理"的长期 Agent 系统提供了关键技术支持。

与端侧/移动端的相关性¶

端侧 Agent 需要在资源受限环境中进行复杂的长期推理。神经符号记忆的模块化设计便于在端侧部署，同时保持强大的推理能力。对移动机器人和自动驾驶等场景具有重要价值。

参考文献¶

原文: arXiv:2603.15280