type: concept tags: [VLM, 视觉语言模型, 扩散模型, 推理加速, 端侧多模态, 高效推理] related: [[gemma4-ondevice]], [[mnn-350]], [[ggml-llamacpp-hf]] sources: - url: https://arxiv.org/abs/2604.06832 title: "Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM" date: 2026-04-09 reliability: high created: 2026-04-20 updated: 2026-04-20

Fast-dVLM: 高效块扩散视觉语言模型¶

通过直接转换自回归 VLM 为块扩散模型，实现 6× 端到端推理加速且保持生成质量

核心问题¶

视觉语言模型（VLM）已成为多模态应用的基础（视觉问答、文档理解、图表解析），但： - 自回归解码瓶颈：当前 VLM 几乎全部依赖逐 token 自回归生成，无论硬件并行度多高，吞吐量都被固有限制 - 物理 AI 需求：机器人、自动驾驶、具身智能等场景对延迟极度敏感 - 多模态推理链：长链推理、结构化输出、多轮对话使效率问题更加突出

核心问题：如何突破自回归解码的顺序性限制，同时保持 VLM 的多模态理解能力？

方法架构¶

直接转换策略（推荐方案）： 1. 直接将完整自回归 VLM 一步转换为块扩散 VLM 2. 利用已有多模态对齐的 VLM，无需从头训练 3. 对比方案：先文本扩散微调再多模态训练（更昂贵但效果相近）

关键技术组件： - 块大小退火（Block-size Annealing）：逐步减小块大小以稳定训练 - 因果上下文注意力（Causal Context Attention）：保持块间因果性 - 自动截断掩码（Auto-truncation Masking）：处理变长序列 - 视觉高效拼接（Vision-efficient Concatenation）：优化视觉 token 处理

实验结果¶

在 11 个多模态基准上评估（基线：Qwen2.5-VL-3B）：

指标	Fast-dVLM	AR 基线
MMMU-Pro-V 精度	匹配	基线
端到端加速	6×	1×
量化 (FP8)	✅ 支持	—
SGLang 集成	✅	—

关键数据： - 端到端加速最高达 6.18× - 在所有 11 个基准上精度接近无损 - 在 NVIDIA H100 上单卡测试

关键洞察¶

为什么重要： - 多模态端侧推理革命：6× 加速使 VLM 在边缘设备上实时运行成为可能 - 兼容性：直接从现有自回归 VLM 转换，复用已有训练投资 - 具身智能关键：机器人和自动驾驶需要实时多模态理解，自回归是根本瓶颈 - 物理 AI 前沿：明确将物理 AI（机器人、自动驾驶）作为核心部署场景

深层分析： - 块扩散的关键洞察：不必逐 token 生成，可以同时预测一个块（如 8-16 tokens），利用硬件并行性 - 直接转换比从头训练高效得多，因为已有多模态对齐权重被保留 - FP8 量化 + SGLang 的组合暗示了在消费级 GPU 上部署的可能性

关联¶

[[gemma4-ondevice]] — Google 端侧多模态模型
[[mnn-350]] — 阿里端侧推理引擎，可集成 Fast-dVLM 加速
[[ggml-llamacpp-hf]] — 通用端侧推理框架