type: concept tags: [asr, streaming, on-device, quantization, onnx, nemotron, edge-ai, 语音识别] related: [[ondevice-streaming-asr]], [[kv-cache-quantization-ondevice]], [[edgeflow-cold-start]], [[coremltools-9]], [[mnn-350]] sources: - url: https://arxiv.org/abs/2604.14493v1 title: "Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency CPU Inference" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19

Pushing the Limits of On-Device Streaming ASR¶

系统性实证研究：在 CPU-only 条件下实现高精度流式语音识别，模型压缩至 0.67GB，WER 仅 8.20%（FP32 基线 8.03%），实时因子 >6×。

核心问题¶

端侧 ASR 部署面临三重矛盾：高精度模型（Qwen3-ASR-1.7B, Whisper Large-v3-Turbo）通常需要 2-7GB 内存和 GPU 加速，但边缘设备仅有 CPU 和有限内存预算。现有模型在批处理模式下表现优异（WER 5.90%-7.15%），但切换到流式模式后严重退化——Qwen3-ASR 从 5.90% 跳升至 10.45%（2.4s stride）。

方法/架构¶

评估模型矩阵（6 大系列，50+ 配置）¶

模型	架构	模式	大小
Whisper Large-v3-Turbo	Encoder-Decoder	Batch	1.62GB
Nemotron-0.6B	Cache-aware Transducer	Stream/Batch	2.47GB
Parakeet TDT-0.6B-v3	TDT Transducer	Chunk/Batch	2.51GB
Canary-1B-v2	AED + AlignAtt	Chunk/Batch	6.36GB
Qwen3-ASR-1.7B	LLM-based ASR	Batch/Chunk	4.70GB

优化管线：Nemotron Speech → ONNX → 量化¶

最终方案基于 NVIDIA Nemotron Speech Streaming，通过 ONNX Runtime 部署： - 缓存感知架构：专为流式设计，batch→streaming 仅损失 0.21% WER - 量化方案：int4 k-quant 将模型从 2.47GB 压缩至 0.67GB（73% 压缩率） - 算子融合：ConvInt 进一步加速但 WER 升至 10.14%，不推荐 - 流式配置：(7, 10, 7) = 0.56s 算法延迟，5.6s 历史窗口

实验结果/关键数据¶

量化 vs 精度（Nemotron-0.6B，CPU 推理）¶

量化方案	模型大小	平均 WER	RTFx	相对退化
FP32 (ONNX)	2.47GB	8.03%	6.73×	基线
int8 k-quant	1.28GB	8.01%	7.25×	-0.2%
int4-mixed	0.73GB	8.12%	7.15×	+1.1%
int4 k-quant	0.67GB	8.20%	7.20×	+2.1%
int4 RTN	0.66GB	8.46%	7.30×	+5.4%

关键发现¶

量化近乎无损：int8 k-quant WER 8.01% vs FP32 8.03%，模型缩小 48%
4-bit 压缩可行：int4 仅 0.67GB，WER 仅升 0.17 个百分点（相对 2.1%）
CPU 推理实用：所有 ONNX 变体 RTFx > 6×（6 倍实时速度），首 token 延迟 < 0.7s
离线精度≠流式精度：批处理 WER 不能预测流式表现，必须单独评估
历史窗口敏感：5.6s 历史 vs 1.6s 历史，WER 差距 1.23%（7.28% vs 8.51%）

关键洞察¶

这篇论文的核心贡献不是单一模型，而是建立了一套端侧 ASR 系统化评估方法论。50+ 配置的对比揭示了几个反直觉结论：

Cache-aware Transducer 比 LLM-based ASR 更适合端侧：Qwen3-ASR 虽然 batch WER 最低（5.90%），但流式退化严重，且需要 4.7GB。Nemotron 以 0.67GB 和最小退化胜出。
量化收益呈递减但可接受：int4 比 int8 多压缩 48%（1.28→0.67GB），但 WER 仅升 0.19%，是端侧部署的甜蜜点。
算法延迟与精度的权衡：0.56s 延迟要求 5.6s 历史窗口，这对内存有隐含成本，但在现代设备上完全可承受。

为什么重要¶

对手机端 AIOS 生态的意义： - 语音助手本地化：证明 0.67GB + CPU 即可实现高质量流式 ASR，使 Siri/AI 助手脱云成为现实 - 隐私保护：纯端侧推理意味着语音数据无需上传 - NPU 加速空间：论文仅用 CPU 即达 RTFx 6×，若利用 NPU 可进一步降低功耗 - [[ondevice-streaming-asr]] 作为技术参考：为其他端侧模型（TTS、翻译）提供量化→ONNX→流式的标准管线

关联¶

[[ondevice-streaming-asr]] — 同主题已有页面，本文为更系统的最新研究
[[kv-cache-quantization-ondevice]] — KV-Cache 量化与 ASR 量化技术互补
[[edgeflow-cold-start]] — 冷启动优化可与流式 ASR 结合
[[coremltools-9]] — Apple 端侧部署工具链，对比 ONNX Runtime 方案
[[mnn-350]] — 阿里端侧推理引擎，可作为 ONNX 的替代部署后端