Human-Inspired Context-Selective Multimodal Memory for Social Robots¶

论文基本信息¶

作者: Hangyeol Kang, Slava Voloshynovskiy, Nadia Magnenat Thalmann
arXiv: https://arxiv.org/abs/2604.12081
领域: cs.RO, cs.AI

摘要¶

记忆对社会互动至关重要，使人类能够回忆有意义的历史经历并据此调整行为。然而，大多数当前社交机器人和具身 Agent 依赖非选择性的纯文本记忆，限制了个性化、上下文感知互动的能力。论文提出一种受认知神经科学启发的上下文选择性 multimodal 记忆架构，捕捉和检索文本和视觉情景痕迹，优先处理高情感显著性或场景新颖性时刻。通过将这些记忆与个体用户关联，系统实现社交个性化回忆和更自然、更接地气的对话。在社交场景数据集上评估选择性存储机制，达到 0.506 的 Spearman 相关性，超越人类一致性（ρ=0.415），优于现有图像记忆模型。multimodal 检索实验中，融合方法将 Recall@1 提升至多模态文本或图像检索的 13% 以上。运行时评估确认系统保持实时性能。

核心贡献¶

Context-selective Multimodal Memory: 受神经科学启发的选择性 multimodal 记忆架构
Emotional/Novalty Prioritization: 优先存储高情感显著性或场景新颖性时刻
Social Personalization: 通过用户关联实现个性化回忆
Spearman 0.506: 超过人类一致性（ρ=0.415）的选择性评估
13% Recall@1 提升: multimodal 检索融合方法显著优于单模态

研究背景与问题¶

现有社交机器人记忆缺乏选择性——同等对待所有交互，无法优先处理重要时刻。认知神经科学表明人类记忆有自然的选择性（情感、新颖性优先）。

核心方法¶

Saliency-based Selection: 基于情感显著性和场景新颖性的记忆选择
Multimodal Episodic Traces: 文本和视觉情景记忆的统一表示
User-associated Memory: 将记忆与个体用户关联
Fusion Retrieval: 融合文本和视觉检索结果
Real-time Performance: 保持实时性能的算法设计

为什么重要¶

该研究将认知科学的选择性记忆机制引入社交机器人 multimodal 记忆系统，对需要长程个性化交互的 Agent 有重要参考价值。

与移动端/端侧相关性¶

社交机器人: 移动端/家庭机器人的核心应用场景
实时性: 保持实时性能，适合移动端部署
个性化: 用户关联记忆支持移动端个性化服务
隐私保护: 用户特定记忆可在本地存储