type: concept tags: [多模态, multimodal-fusion, agentic-inference, omnimllm, 动态融合, hallucination-mitigation] related: [[mma2a-modality-native-routing]], [[multimodal-edge-pruning]], [[summer-multimodal-memory]], [[synergy-agentic-web-agent]], [[edge-cloud-offloading]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.14520 title: "Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs" date: 2026-04-16 reliability: high - url: https://arxiv.org/html/2604.14520v1 title: "Chain of Modality (Full Paper HTML)" date: 2026-04-16 reliability: high created: 2026-04-17 updated: 2026-04-17
Chain of Modality (CoM): 动态多模态融合编排¶
一种 Agentic 框架,将多模态融合从被动拼接转变为动态编排,解决 Omni-MLLM 中静态融合拓扑导致的结构性病理。西北工业大学,arXiv 2026-04-16。
核心问题¶
当前全模态大语言模型(Omni-MLLMs)普遍采用静态融合拓扑——无论任务语义如何,都以固定方式拼接不同模态输入。这导致了一个令人困惑的性能悖论:在 AVHBench 等基准上,单模态基线模型经常超越联合多模态推理模型。多模态融合非但没有产生协同效应,反而引入了系统性干扰。
论文通过实证分析,识别出两个结构性病理:
病理 1:位置偏差(Positional Bias)¶
在顺序输入格式(如 Audio-Visual)中,视觉特征凭借位置邻近性"劫持"注意力分配。即使在音频主导的任务中,深层注意力中视觉 token 的权重仍然与音频相当甚至更高。调换输入顺序会导致性能剧烈波动,证明模型依赖的是结构邻近性而非语义内容。
病理 2:对齐陷阱(Alignment Trap)¶
为弥合时序差距而采用的交错格式,通过强制跨模态 token 物理相邻,迫使模型在信号不一致时仍"幻觉"语义一致性。这导致虚警率系统性升高(ErrorV > ErrorA),模型即使在视觉证据误导的情况下也偏向视觉模态。
方法/架构:CoM 三组件¶
CoM 框架将推理分为三个阶段:
1. Planner(规划器)- 拓扑感知规划¶
- 模态选择:分析任务需求,从可用模态集合中筛选最小充分模态集
- 拓扑选择:在并行(Parallel)、顺序(Sequential)、交错(Interleaved)三种拓扑中动态选择最优配置
- 执行排序:确定模态处理的最优顺序
2. Reasoner(推理器)- 分析推理¶
- 根据 Planner 的蓝图,沿选定拓扑从最小模态集提取证据
- 生成各模态的感知推理链
3. Decider(决策器)- 最终决策¶
- 综合理性推理链生成最终响应
双路径认知执行¶
CoM 根据任务复杂度自适应选择执行路径:
| 路径 | 适用场景 | 流程 | 训练需求 |
|---|---|---|---|
| Direct-Decide (Plan-Decide) | 直觉型任务(音乐问答、场景理解) | 感知 → 直接决策 | 免训练(zero-shot) |
| Reason-Decide (Plan-Reason-Decide) | 分析型任务(计数、复杂推理) | 感知 → 分析审计 → 综合决策 | 数据高效 SFT |
关键洞察:Omni-MLLMs 已具备潜在分析能力,只是在标准直接映射中处于休眠状态。PRD 结构作为结构性催化剂激活这些能力。
实验结果¶
主要性能对比(训练-free Plan-Decide 路径)¶
| 方法 | Music-AVQA | AVHBench(A-Hal) | AVHBench(V-Hal) | OmniBench | WorldSense |
|---|---|---|---|---|---|
| Qwen-Omni-7B | 77.9 | 73.2 | 66.8 | 46.5 | 39.2 |
| +CoM | 78.8 (+0.9) | 78.2 (+5.0) | 79.7 (+12.9) | 49.4 (+2.9) | 41.9 (+2.7) |
| Ola-7B | 69.6 | 54.2 | 71.3 | 40.2 | 41.1 |
| +CoM | 69.3 | 62.6 (+8.4) | 73.8 (+2.5) | 42.4 (+2.2) | 40.0 |
核心亮点:在 AVHBench 幻觉基准上,CoM 实现了 +12.9%(Audio-Hallucination) 的提升,证明动态拓扑切换能有效抑制跨模态幻觉。
分析推理任务(Plan-Reason-Decide 路径)¶
| 方法 | AV-Odyssey | AV-Counting |
|---|---|---|
| Qwen2.5-Omni-7B | 24.4 | 21.5 |
| +CoM (PD) | 27.0 | 23.6 |
| +CoM (PRD) | 31.6 (+7.2) | 26.9 (+5.4) |
PRD 路径在分析型任务上取得了更大提升,证明递进式认知深度对复杂推理至关重要。
消融实验:拓扑 x 任务协同¶
不同任务对不同拓扑有明确偏好: - 并行拓扑:单模态主导任务表现最佳(快速定位关键模态) - 顺序拓扑:需要传递逻辑的任务最佳(空间到音频接地) - 交错拓扑:需要细粒度对齐的任务最佳
关键洞察¶
- 模态编排的物理性与训练同等重要:优化模态的"物理排列"本身就能解锁 zero-shot 潜力,复杂训练设计不是唯一路径
- 视觉偏差是结构性的而非语义性的:模型在深层仍对视觉 token 保持系统性偏好,无论任务是否以视觉为中心
- 模型已具备休眠的分析能力:PRD 结构不需要新知识,只需激活已有能力——这对端侧部署极其有利
- 训练-free 也能战胜重型 RL 优化模型:架构驱动的方法在 7 个基准上与密集 SFT/RL 模型持平或超越
对手机端 AI 的意义¶
CoM 框架对端侧多模态 AI 有直接指导价值: - 计算效率:动态模态选择避免处理冗余模态,节省端侧算力和能耗 - 自适应深度:简单查询走 Direct-Decide 路径(快速响应),复杂查询走 Reason-Decide 路径(深度分析),天然适配移动端延迟-精度权衡 - 免训练部署:训练-free 设置适合端侧持续学习场景,无需频繁更新权重 - 幻觉抑制:动态拓扑切换可减少端侧多模态推理中的跨模态干扰,提升可靠性
关联¶
- [[mma2a-modality-native-routing]] — CoM 的模态选择与路由机制互补,两者都在解决多模态信息流的最优配置问题
- [[multimodal-edge-pruning]] — CoM 的最小充分模态集与剪枝策略目标一致:只处理必要信息
- [[summer-multimodal-memory]] — 多模态推理需要持久化记忆来跨轮次保持上下文一致性
- [[synergy-agentic-web-agent]] — CoM 的 agentic 编排范式可推广到 Agent 间协作
- [[edge-cloud-offloading]] — CoM 的拓扑选择可与端云卸载决策联合优化
- [[edgeflow-cold-start]] — Direct-Decide 路径的免训练特性有利于冷启动场景