Cross-Modal Memory Compression for Efficient Multi-Agent Debate¶

论文基本信息¶

作者: Jing Wu, Yue Sun, Tianpei Xie, Suiyao Chen, Jingyuan Bao, Yaopengxiao Xu, Gaoyuan Du, Inseok Heo, Alexander Gutfraind, Xin Wang
arXiv: https://arxiv.org/abs/2602.00454
代码: 论文中未公开提供

摘要¶

多智能体辩论可提升推理质量并减少幻觉，但随着辩论轮次和智能体数量增加，上下文快速增长。保留完整文本历史导致 token 使用超出上下文限制，通常需要重复摘要，引入开销并加剧信息损失。DebateOCR 提出跨模态压缩框架，将长文本辩论轨迹转换为紧凑图像表示，实现 92%+ 的 token 减少，同时通过理论分析证明聚合多个 Agent 的压缩视图可以恢复被单个压缩丢弃的信息。

核心贡献¶

DebateOCR 框架: 提出跨模态压缩框架，将长文本辩论轨迹替换为紧凑的图像表示
92%+ Token 减少: 压缩通常跨度数万到数十万 token 的辩论历史，减少超过 92% 的输入 token
理论分析: 证明跨 Agent 的多样性支持信息恢复——多个 Agent 压缩视图的聚合使集体表示接近信息瓶颈
更低计算成本: 在多个基准上实现更低计算成本和更快推理

研究背景与问题¶

多智能体辩论可以提高推理质量并减少幻觉，但随着辩论轮次和智能体数量增加，上下文快速增长。保留完整文本历史导致 token 使用量超出上下文限制，通常需要重复摘要，引入开销并加剧信息损失。

核心方法¶

跨模态转换: 将长文本辩论轨迹转换为紧凑图像表示
专用视觉编码器: 通过专用视觉编码器处理压缩后的图像，为后续轮次提供条件
理论保证: 基于信息瓶颈理论，证明聚合多个 Agent 的压缩视图可以恢复被单个压缩丢弃的信息

为什么重要¶

这篇论文将跨模态压缩（文本→图像）应用于多智能体辩论的记忆压缩问题，并提供了理论保证。对于需要长上下文的多智能体 Agent 系统，跨模态压缩是突破上下文限制的有效途径。

与移动端/端侧相关性¶

在端侧部署多智能体系统时，跨 Agent 通信的上下文膨胀是严重瓶颈。DebateOCR 的跨模态压缩思路——将文本转换为视觉表示再压缩——对资源受限环境下的多 Agent 协作有参考价值。