type: concept tags: [VLM, 视觉语言模型, 扩散模型, 推理加速, 端侧多模态, 高效推理] related: [[gemma4-ondevice]], [[mnn-350]], [[ggml-llamacpp-hf]] sources: - url: https://arxiv.org/abs/2604.06832 title: "Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM" date: 2026-04-09 reliability: high created: 2026-04-20 updated: 2026-04-20
Fast-dVLM: 高效块扩散视觉语言模型¶
通过直接转换自回归 VLM 为块扩散模型,实现 6× 端到端推理加速且保持生成质量
核心问题¶
视觉语言模型(VLM)已成为多模态应用的基础(视觉问答、文档理解、图表解析),但: - 自回归解码瓶颈:当前 VLM 几乎全部依赖逐 token 自回归生成,无论硬件并行度多高,吞吐量都被固有限制 - 物理 AI 需求:机器人、自动驾驶、具身智能等场景对延迟极度敏感 - 多模态推理链:长链推理、结构化输出、多轮对话使效率问题更加突出
核心问题:如何突破自回归解码的顺序性限制,同时保持 VLM 的多模态理解能力?
方法架构¶
直接转换策略(推荐方案): 1. 直接将完整自回归 VLM 一步转换为块扩散 VLM 2. 利用已有多模态对齐的 VLM,无需从头训练 3. 对比方案:先文本扩散微调再多模态训练(更昂贵但效果相近)
关键技术组件: - 块大小退火(Block-size Annealing):逐步减小块大小以稳定训练 - 因果上下文注意力(Causal Context Attention):保持块间因果性 - 自动截断掩码(Auto-truncation Masking):处理变长序列 - 视觉高效拼接(Vision-efficient Concatenation):优化视觉 token 处理
实验结果¶
在 11 个多模态基准上评估(基线:Qwen2.5-VL-3B):
| 指标 | Fast-dVLM | AR 基线 |
|---|---|---|
| MMMU-Pro-V 精度 | 匹配 | 基线 |
| 端到端加速 | 6× | 1× |
| 量化 (FP8) | ✅ 支持 | — |
| SGLang 集成 | ✅ | — |
关键数据: - 端到端加速最高达 6.18× - 在所有 11 个基准上精度接近无损 - 在 NVIDIA H100 上单卡测试
关键洞察¶
为什么重要: - 多模态端侧推理革命:6× 加速使 VLM 在边缘设备上实时运行成为可能 - 兼容性:直接从现有自回归 VLM 转换,复用已有训练投资 - 具身智能关键:机器人和自动驾驶需要实时多模态理解,自回归是根本瓶颈 - 物理 AI 前沿:明确将物理 AI(机器人、自动驾驶)作为核心部署场景
深层分析: - 块扩散的关键洞察:不必逐 token 生成,可以同时预测一个块(如 8-16 tokens),利用硬件并行性 - 直接转换比从头训练高效得多,因为已有多模态对齐权重被保留 - FP8 量化 + SGLang 的组合暗示了在消费级 GPU 上部署的可能性
关联¶
- [[gemma4-ondevice]] — Google 端侧多模态模型
- [[mnn-350]] — 阿里端侧推理引擎,可集成 Fast-dVLM 加速
- [[ggml-llamacpp-hf]] — 通用端侧推理框架