Trust, Lies, and Long Memories: Emergent Social Dynamics and Reputation in Multi-Round Avalon with LLM Agents

论文信息¶

作者: Suveen Ellawela
提交日期: 2026-04-15
方向: 记忆隐私 / 社会记忆 / 多Agent博弈

摘要¶

本文研究LLM Agent在多轮"抵抗组织：阿瓦隆"（隐藏角色欺骗游戏）中涌现的社会动态。与以往单局表现研究不同，本文的Agent跨游戏保留记忆——包括谁扮演了什么角色、他们表现如何——使得可以研究社会动态如何演化。

核心发现：跨游戏记忆的存在根本性地改变了社会动态： - 有长期记忆的Agent发展出基于声誉的策略——信任合作者，不信任已知骗子 - 记忆使"牵连犯罪"（guilt by association）和"救赎弧线"（redemption arcs）等概念涌现 - 记忆时间尺度影响行为模式：短期记忆导致机会主义欺骗，长期记忆促进稳定合作

核心贡献¶

声誉追踪系统：记忆过去欺骗行为，发展出复杂的声誉评估机制
社会记忆涌现现象：
角色条件声誉（同一Agent在好人阵营被描述为"直率"，在坏人阵营被描述为"狡猾"）
牵连犯罪（不信任骗子曾经的盟友）
救赎弧线（高声誉玩家在失败后获得更多信任）
记忆时间尺度效应：短/长期记忆产生根本不同的涌现社会结构
188场游戏的系统性分析：提供了社会Agent记忆研究的丰富数据集

方法详解¶

记忆结构： - 玩家历史记录：每场游戏的角色分配、投票行为、发言模式 - 声誉评分：基于欺骗次数、合作率、被信任次数的动态评分 - 关系图：玩家之间的信任/不信任关系边

涌现行为分析： - 高声誉玩家获得46%更多的团队入选 - Agent在发言中自然引用过去的交互："我警惕重蹈上次游戏中过度信任早期成功的错误" - 欺骗者对已知的高声誉对手采取更谨慎的策略

时间尺度实验： - 短期记忆（1-2局）：Agent表现机会主义，利用一次性交互 - 长期记忆（跨游戏）：Agent建立和维护声誉，形成稳定的合作网络

为什么重要¶

首个系统研究社会Agent记忆中声誉机制的工作，揭示了记忆持久性如何塑造多Agent社交动态。对于设计长期交互的Agent系统（社交机器人、协作助手、游戏AI）有重要启发。

与端侧/移动端的相关性¶

声誉模型可作为轻量记忆系统应用于端侧多Agent场景
协作式移动应用或智能家居Agent间的信任管理
移动端游戏的个性化NPC社交记忆系统
隐私敏感：记忆数据的本地存储和选择性遗忘机制

实验数据¶

188场游戏，跨多个游戏保留玩家记忆
声誉评分随游戏数增加逐渐稳定
长期记忆条件下，合作率比短期记忆条件高31%