type: entity tags: [asr, on-device, quantization, onnx, edge-inference, microsoft, streaming] related: [[edgeflow-cold-start]], [[septq-post-training-quantization]], [[kv-cache-quantization-ondevice]], [[kl-quantization-ssm-transformer]], [[fastshade-mobile-denoising]] sources: - url: https://arxiv.org/abs/2604.14493 title: "Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17
On-Device Streaming ASR¶
微软 CoreAI 团队的端侧流式 ASR 系统研究:在 CPU 上实现 8.20% WER、0.56s 延迟、0.67GB 模型大小,建立了端侧语音识别的质量-效率帕累托前沿。
核心问题¶
高质量 ASR 模型(Qwen3-ASR-1.7B 5.90% WER、Parakeet TDT-0.6B-v3 6.32%、Canary-1B-v2 7.15%)都是批处理架构,需要 2-7GB 内存和 GPU 推理。端侧部署面临四大约束: 1. 流式能力:必须以亚秒延迟处理音频块 2. 高精度:跨多种英语场景的 WER 需有竞争力 3. 最少资源:模型需在 1GB 以内,CPU 上运行速度快于实时 4. 纯 CPU 推理:无 GPU 加速
方法/架构¶
系统架构¶
基于 NVIDIA Nemotron Speech Streaming 模型(0.6B 参数),通过 ONNX Runtime 实现完整推理流水线。
评估范围¶
系统性评估了 50+ 种配置,涵盖: - 架构范式:Encoder-Decoder、Transducer、LLM-based - 推理模式:批处理、分块、流式 - 模型:Whisper、Nemotron、Parakeet TDT、Canary、Conformer Transducer、Qwen3-ASR
量化策略¶
对最佳候选模型(Nemotron 0.6B)应用多种后训练量化: - Importance-weighted k-quant:按权重重要性分配不同位宽 - 混合精度方案:关键层保留高精度,非关键层压缩 - Round-to-nearest (RTN):标准量化基线 - 图级算子融合:优化 ONNX 计算图
流式配置¶
使用配置元组 (chunk_size, history, lookahead) 控制流式行为:
- 推荐配置:(7, 10, 7) — 0.56s 算法延迟,5.6s 历史窗口
- 超低延迟配置:(2, 20, 2) — 0.16s 算法延迟
实验结果¶
评估基准¶
8 个标准英语 ASR 数据集(ESB 套件):AMI(会议)、Earnings22(财报电话)、GigaSpeech(互联网音频)、LibriSpeech Clean/Other(有声书)、SPGISpeech(金融转录)、TED-LIUM(演讲)、VoxPopuli(欧洲议会)。
Nemotron 0.6B ONNX 量化结果¶
| 配置 | 格式 | 大小 | 设备 | 平均 RTFx | 平均 WER |
|---|---|---|---|---|---|
| PyTorch 基线 | PyTorch | 2.47 GB | CUDA | 7.28 | — |
| FP32 ONNX | ONNX | 2.47 GB | CPU | 8.03 | — |
| int8 k-quant | ONNX | 1.28 GB | CPU | 8.01 | — |
| int4-mixed k-quant | ONNX | 0.73 GB | CPU | 8.12 | — |
| int4 k-quant (推荐) | ONNX | 0.67 GB | CPU | 8.20 | — |
| int4 RTN | ONNX | 0.66 GB | CPU | 8.46 | — |
核心数据¶
- 推荐配置(int4 k-quant):0.67 GB、8.20% 平均 WER、0.56s 算法延迟
- WER 退化:仅 1% 绝对值(相对于 PyTorch 全精度基线)
- 模型压缩:从 2.47 GB 压缩至 0.67 GB(73% 减少)
- 超低延迟配置:0.16s 算法延迟,8.89% WER
各数据集详细 WER(int4 k-quant, 0.56s 延迟)¶
- AMI: 7.20% | Earnings22: 17.05% | GigaSpeech: 13.60%
- LibriSpeech Clean: 12.10% | LibriSpeech Other: 2.38%
- SPGISpeech: 5.04% | TED-LIUM: 2.83% | VoxPopuli: 7.98%
关键洞察¶
-
Nemotron Streaming > 所有其他架构:在流式场景下,Nemotron Speech Streaming 优于 Whisper、Qwen3-ASR 等更大模型。证明了专用流式架构的价值。
-
k-quant 优于 RTN:重要性加权的 k-quant 在相同大小下比 round-to-nearest 保持更低 WER,验证了按权重重要性分配位宽的有效性。
-
1GB 以内的端侧 ASR 可行:0.67 GB + CPU 推理 + 8.20% WER + 0.56s 延迟,四个约束同时满足,建立了端侧流式 ASR 的新帕累托前沿。
-
超低延迟的代价可控:0.16s 延迟配置仅将 WER 从 8.20% 增加到 8.89%,适合对延迟极度敏感的场景(实时字幕、语音控制)。
为什么重要¶
这项工作直接回答了"端侧能否运行高质量 ASR"的问题:可以。0.67GB 的模型在纯 CPU 上以 8.20% WER 实时运行,对以下场景有直接影响: - 手机端实时字幕和语音转文本 - 车载语音助手(离线模式) - IoT 设备的语音唤醒与指令识别 - 隐私敏感场景的本地语音处理
ONNX Runtime 方案使模型可跨平台部署(iOS、Android、Linux、Windows),降低了端侧 ASR 的工程门槛。
关联¶
- [[edgeflow-cold-start]] — EdgeFlow 优化 LLM 冷启动,本工作优化 ASR 冷启动/流式延迟
- [[septq-post-training-quantization]] — SEPTQ 量化范式,本工作使用类似的 k-quant 策略
- [[kv-cache-quantization-ondevice]] — KV-Cache 量化,本工作是模型权重量化
- [[kl-quantization-ssm-transformer]] — KL 敏感度量化,本工作按权重重要性量化
- [[fastshade-mobile-denoising]] — FastSHADE 端侧推理优化,同属端侧高效推理领域