type: concept tags: [视觉Token压缩, MLLM, 推理加速, 多模态, token pruning, 端侧推理, Qwen2.5-VL] related: [[evocomp-visual-token-compression-mllm]], [[token-compression-vit-acceleration]], [[multimodal-edge-pruning]], [[imp-mobile-lmm]], [[topovlm-layer-pruning]], [[essen-compact-vlm-training]] sources: - url: https://arxiv.org/abs/2604.16462 title: "From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration" date: 2026-04-21 reliability: high created: 2026-04-21 updated: 2026-04-21
HalfV: 视觉冗余生命周期与 MLLM 推理加速¶
发现 MLLM 视觉 token 存在通用三阶段冗余生命周期(模态对齐→全局聚合→视觉饱和),提出基于截断矩阵熵的架构感知加速框架 HalfV——在 Qwen25-VL 上保留 96.8% 性能的同时实现 4.1× FLOPs 加速。
核心问题¶
多模态大语言模型(MLLM)在高分辨率设置下,视觉 Transformer 编码的视觉 token 数量爆炸,自注意力的 O(N²) 复杂度导致 prefill 阶段成为延迟瓶颈。现有加速方法(token-level 剪枝、layer-level 稀疏化)存在严重的骨干网络依赖——在 Vicuna/Mistral 上过拟合的方法迁移到 Qwen2.5 架构时性能下降 5.7%-22.4%。
方法架构¶
三阶段视觉冗余生命周期¶
通过截断矩阵熵(Truncated Matrix Entropy)追踪不同层的冗余演化,发现所有骨干网络的视觉 token 都经历三个阶段:
| 阶段 | 层范围 | 冗余特征 | 适合的加速策略 |
|---|---|---|---|
| 模态对齐 | 早期层 | 冗余继承自 ViT,token 高度相似 | token-level 剪枝 |
| 全局聚合 | 中间层 | token 开始差异化,冗余动态变化 | 需要动态策略 |
| 视觉饱和 | 后期层 | 信息吸收完毕,冗余稳定高 | layer-level 稀疏化 |
HalfV 框架¶
两步加速框架,根据冗余生命周期的不同阶段适配不同的加速策略:
- 截断矩阵熵:作为统一探针追踪跨层冗余
- 计算每个 transformer 层的 token 表示矩阵的 Gram 矩阵
- 保留 top-k 特征值(肘点之前)抑制噪声
-
截断矩阵熵 = 归一化截断迹,衡量当前层的冗余程度
-
架构感知加速:
- 早期层(模态对齐):token-level 剪枝
- 后期层(视觉饱和):layer-level 稀疏化
- 中间层:根据冗余度动态调整
与现有方法的对比¶
| 方法 | 策略 | 骨架依赖 | Qwen2.5 性能 |
|---|---|---|---|
| HoloV | Token-level 剪枝 | 高(Vicuna 过拟合) | -5.7%~-22.4% |
| DART | Token-level 剪枝 | 高 | -5.7%~-22.4% |
| ShortV | Layer-level 稀疏 | 中 | 有退化 |
| HalfV | 两阶段混合 | 低 | -3.2% (保留96.8%) |
实验结果¶
在 Qwen25-VL 上的关键结果:
- 性能保留: 96.8%(仅下降 3.2%)
- 计算加速: 4.1× FLOPs
- 评估基准: POPE、MME、MMBench、SQA 平均
核心发现: 不同骨干网络的视觉冗余演化遵循相同的三阶段模式,但冗余分布的具体层位置和程度不同。基于生命周期阶段适配策略(而非一刀切)是跨架构泛化的关键。
关键洞察¶
- 统一探针优于手工规则: 截断矩阵熵提供了无监督的冗余度量,不需要针对特定架构调参
- 阶段混合策略是关键: token-level 和 layer-level 方法各有最佳适用阶段,混合使用效果远超单一策略
- 从 Vicuna 到 Qwen 的泛化: 这是首个系统解决视觉 token 加速方法跨骨干迁移问题的工作
- 端侧 MLLM 部署的意义: 4.1× 加速 + 96.8% 性能保留 = 使高分辨率多模态推理在手机端变得可行
为什么重要¶
对手机端 AI 生态的意义: - 端侧 MLLM 可行性: 高分辨率视觉理解是端侧 AI 的核心需求(拍照识物、屏幕理解、AR),4.1× 加速直接降低计算门槛 - Qwen2.5-VL 兼容: Qwen 是端侧多模态模型的主力(Qwen 3.5 Small 等),适配 Qwen 架构的方法有直接应用价值 - 框架可复用性: 截断矩阵熵作为统一探针可应用于任何 MLLM,不需要重新设计 - 与现有优化栈互补: HalfV 减少 FLOPs,可与 KV-cache 量化、模型量化等技术叠加
关联¶
- [[evocomp-visual-token-compression-mllm]] — OPPO 的视觉 Token 压缩框架
- [[token-compression-vit-acceleration]] — ViT Token 压缩策略重审视
- [[multimodal-edge-pruning]] — 多模态边缘推理的零样本剪枝
- [[imp-mobile-lmm]] — 面向移动设备的高性能大型多模态模型
- [[topovlm-layer-pruning]] — 拓扑感知层剪枝
- [[essen-compact-vlm-training]] — 低资源训练紧凑视觉语言模型
- [[qwen35-small]] — Qwen 3.5 Small 端侧多模态模型系列