type: concept tags: [inference, optimization, vit, pruning, attention, edge-inference, 推理优化] related: [[groupdpo-memory-efficient-preference-optimization]], [[kv-cache-quantization-ondevice]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.15408 title: "Dispatch-Aware Ragged Attention for Pruned Vision Transformers" date: 2026-04-20 reliability: high created: 2026-04-20 updated: 2026-04-20

Dispatch-Aware Ragged Attention: ViT 剪枝的实际加速瓶颈¶

Token 剪枝号称能二次减少 attention FLOPs，但实际部署中，调度开销吞噬了剪枝收益。轻量 Triton 内核将调度开销降低 1.5x。来自 Saif Mahmoud 等人 (arXiv 2604.15408)。

核心问题¶

Vision Transformer (ViT) 的 token 剪枝方法承诺通过丢弃不信息性 patch 实现注意力计算的二次级减少。但当使用 FlashAttention-2 varlen 或 PyTorch NestedTensor SDPA 等变长注意力 API 时，实际的 wall-clock 延迟并没有相应下降。

方法/架构¶

问题根因分析：调度开销瓶颈 - 在 ViT 典型的短剪枝序列长度（≤197 tokens）下，实际矩阵运算在个位数微秒内完成 - 但 host-side 调度路径消耗 60-90μs - 调度开销成为主导因素，剪枝节省的计算时间被掩盖

解决方案：轻量双向 Triton 注意力内核 - 调度 floor 约 40μs，约为 FlashAttention-2 varlen 的 1.5x 降低 - 使剪枝节省在 wall-clock 时间中更加可见 - 针对短序列场景专门优化

实验结果¶

在典型 ViT 序列长度（≤197 tokens）下，调度开销占比 60-90%
新内核将调度 floor 从 60-90μs 降至 40μs
剪枝加速比从"几乎不可见"变为显著可测量

关键洞察¶

这是一个关于"理论 FLOPs 与实际延迟脱节"的典型案例。在移动/边缘设备上，这一问题更加严重： - 移动 GPU/NPU 的调度开销通常比桌面 GPU 更高 - 短序列是移动端视觉模型的常态（手机摄像头帧通常 224x224 或更低） - 边缘设备的 kernel launch overhead 更大

教训：在评估边缘推理优化时，不能只看 FLOPs 减少量，必须测量实际端到端延迟，特别是调度/启动开销。

为什么重要¶

移动视觉模型：手机上的 ViT（如图像分类、OCR）普遍使用 token 剪枝，但实际加速远低于预期
边缘部署现实：揭示了从"论文指标"到"设备实际性能"之间的鸿沟
内核优化方向：为边缘推理引擎（MNN、TFLite）提供了新的优化方向——降低 kernel 启动开销

关联¶

[[kv-cache-quantization-ondevice]] — 类似的推理内存优化
[[groupdpo-memory-efficient-preference-optimization]] — 训练侧内存优化
[[edgeflow-cold-start]] — 边缘冷启动优化
[[mnn-350]] — MNN 推理引擎，可受益于调度优化