MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
论文基本信息¶
- 作者: Weihai Lu, Zhejun Zhao, Yanshu Li
- 方向: 多模态立场检测、多智能体检索增强
- 应用: 社交媒体分析、舆论监测
研究背景与问题¶
多模态立场检测(MSD)对理解公共舆论至关重要,但有效融合文本和图像(尤其是存在冲突信号时)仍具挑战。现有方法在上下文基础、跨模态解释歧义和单轮推理脆弱性方面面临困难。
核心方法:MM-StanceDet¶
MM-StanceDet 提出了一个新型多智能体框架,集成检索增强用于立场检测:
- 检索增强的多模态融合:通过外部记忆获取相关上下文,增强多模态理解
- 多智能体协作推理:多个专业智能体分别处理文本和图像模态
- 冲突信号处理:专门设计处理文本与图像立场冲突的情况
核心贡献¶
- 多模态多智能体立场检测框架:首个将检索增强与多智能体协作结合的立场检测方法
- 有效处理跨模态冲突:在图文立场不一致时仍能准确判断
- 可扩展的检索架构:通过外部记忆库支持大规模立场知识的获取
为什么重要¶
立场检测在舆论分析、假新闻识别等场景有重要应用。MM-StanceDet 证明了多智能体协作结合检索增强能有效解决多模态信息融合中的核心挑战,为构建更可靠的多模态 Agent 系统提供了新范式。
与端侧/移动端的相关性¶
端侧社交媒体分析应用可从 MM-StanceDet 的轻量级多智能体架构中受益,在移动设备上进行实时舆论监测和立场分析。
参考文献¶
- 原文: arXiv:2604.27934