跳转至

type: concept tags: [VLM, 视觉语言模型, 扩散模型, 推理加速, 端侧多模态, 高效推理] related: [[gemma4-ondevice]], [[mnn-350]], [[ggml-llamacpp-hf]] sources: - url: https://arxiv.org/abs/2604.06832 title: "Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM" date: 2026-04-09 reliability: high created: 2026-04-20 updated: 2026-04-20


Fast-dVLM: 高效块扩散视觉语言模型

通过直接转换自回归 VLM 为块扩散模型,实现 6× 端到端推理加速且保持生成质量

核心问题

视觉语言模型(VLM)已成为多模态应用的基础(视觉问答、文档理解、图表解析),但: - 自回归解码瓶颈:当前 VLM 几乎全部依赖逐 token 自回归生成,无论硬件并行度多高,吞吐量都被固有限制 - 物理 AI 需求:机器人、自动驾驶、具身智能等场景对延迟极度敏感 - 多模态推理链:长链推理、结构化输出、多轮对话使效率问题更加突出

核心问题:如何突破自回归解码的顺序性限制,同时保持 VLM 的多模态理解能力?

方法架构

直接转换策略(推荐方案): 1. 直接将完整自回归 VLM 一步转换为块扩散 VLM 2. 利用已有多模态对齐的 VLM,无需从头训练 3. 对比方案:先文本扩散微调再多模态训练(更昂贵但效果相近)

关键技术组件: - 块大小退火(Block-size Annealing):逐步减小块大小以稳定训练 - 因果上下文注意力(Causal Context Attention):保持块间因果性 - 自动截断掩码(Auto-truncation Masking):处理变长序列 - 视觉高效拼接(Vision-efficient Concatenation):优化视觉 token 处理

实验结果

在 11 个多模态基准上评估(基线:Qwen2.5-VL-3B):

指标 Fast-dVLM AR 基线
MMMU-Pro-V 精度 匹配 基线
端到端加速
量化 (FP8) ✅ 支持
SGLang 集成

关键数据: - 端到端加速最高达 6.18× - 在所有 11 个基准上精度接近无损 - 在 NVIDIA H100 上单卡测试

关键洞察

为什么重要: - 多模态端侧推理革命:6× 加速使 VLM 在边缘设备上实时运行成为可能 - 兼容性:直接从现有自回归 VLM 转换,复用已有训练投资 - 具身智能关键:机器人和自动驾驶需要实时多模态理解,自回归是根本瓶颈 - 物理 AI 前沿:明确将物理 AI(机器人、自动驾驶)作为核心部署场景

深层分析: - 块扩散的关键洞察:不必逐 token 生成,可以同时预测一个块(如 8-16 tokens),利用硬件并行性 - 直接转换比从头训练高效得多,因为已有多模态对齐权重被保留 - FP8 量化 + SGLang 的组合暗示了在消费级 GPU 上部署的可能性

关联

  • [[gemma4-ondevice]] — Google 端侧多模态模型
  • [[mnn-350]] — 阿里端侧推理引擎,可集成 Fast-dVLM 加速
  • [[ggml-llamacpp-hf]] — 通用端侧推理框架