type: entity tags: [asr, mlx, coreml, apple-silicon, whisper, streaming, speech, 实时转录, 推理优化] related: [[whisper]], [[coremltools-9]], [[on-device-inference-memory-pressure]] sources: - url: https://github.com/altalt-org/Lightning-SimulWhisper title: "Lightning-SimulWhisper GitHub" date: 2026-04-20 reliability: high - url: https://news.ycombinator.com/item?id=47774971 title: "HN: Lightning-SimulWhisper" date: 2026-04-20 reliability: medium created: 2026-04-20 updated: 2026-04-20
Lightning-SimulWhisper¶
基于 MLX + CoreML 的实时流式语音转录引擎,在 Apple Silicon 上实现 15-18x 加速,支持 large-v3-turbo 模型实时运行。
核心问题¶
OpenAI 的 Whisper 模型在通用 GPU 上推理速度有限。在 Apple Silicon 设备上,原始 PyTorch 实现只能勉强运行 base 模型实时转录,medium 和 large 模型完全无法实时。这严重限制了端侧语音助手和实时字幕应用的实用性。
方法/架构¶
Lightning-SimulWhisper 采用双引擎架构,结合 MLX 和 CoreML 的优势:
- CoreML Encoder:利用 Apple Neural Engine (ANE) 加速编码器,最高 18x 加速。通过
coremltools将 Whisper 编码器转换为 CoreML 格式,直接在 ANE 上执行。 - MLX Decoder:Apple 的 MLX 框架优化解码器推理,最高 15x 加速。MLX 提供原生 Apple Silicon 优化,避免了 PyTorch 的开销。
- AlignAtt Policy:采用 SimulStreaming 论文的 AlignAtt 对齐策略实现流式解码,同时保持转录质量。
- 零 PyTorch 依赖:完全移除 PyTorch,仅依赖 MLX 和 CoreML,显著降低内存占用和启动时间。
支持模型:tiny.en, tiny, base.en, base, small.en, small, medium.en, medium, large-v1, large-v2, large-v3, large-v3-turbo
关键数据¶
| 指标 | PyTorch 基线 | MLX+CoreML | 加速比 |
|---|---|---|---|
| 编码器速度 | 1x | 18x | 18x |
| 解码器速度 | 1x | 15x | 15x |
| 可实时模型 | base | medium, large-v3-turbo | — |
| 功耗 | 高 | CoreML 显著更低 | — |
GitHub Stars: 560+
关键洞察¶
-
CoreML Encoder 是关键:MLX-only 版本功耗过高("consumes way too much power"),CoreML 编码器利用 ANE 硬件加速大幅降低功耗。这验证了在 Apple Silicon 上,混合使用 CoreML(编码器)和 MLX(解码器)是最优策略。
-
端侧 ASR 的天花板在提升:从只能运行 base 模型到能实时运行 large-v3-turbo,这意味着端侧语音助手的准确度可以接近云端方案。
-
功耗测试缺失是机会:项目作者坦言不知道如何测量特定进程的功耗。这是一个有价值的贡献方向——Apple Silicon 的功耗特性数据对端侧 AI 优化至关重要。
为什么重要¶
对手机端 AI 生态的意义: - Apple 生态的端侧 ASR 范式:展示了如何在 Apple 设备上高效运行 Whisper,为 iOS/macOS 语音应用提供了参考实现 - CoreML + MLX 混合推理:这一架构模式可推广到其他模型(视觉、语言),是 Apple AI 生态的核心推理模式 - 实时流式推理:AlignAtt 策略实现低延迟流式转录,对端侧 AI 助手的语音交互至关重要
关联¶
- [[whisper]] — Lightning-SimulWhisper 的基础模型,OpenAI 的通用 ASR 模型
- [[coremltools-9]] — 用于将 Whisper 编码器转换为 CoreML 格式的工具链
- [[on-device-inference-memory-pressure]] — 端侧推理的内存压力管理
- [[gemma4-ondevice]] — 同为端侧推理方案,但针对语言模型而非 ASR