type: entity tags: [inference, mnn, llm, mobile, android, ios, quantization, gpu, vulkan, risc-v, tokenizer, voice, 平台] related: [[kv-cache-quantization-ondevice]], [[ggml-llamacpp-hf]], [[gemma-cpp-inference]], [[coremltools-9]], [[mnn-350]] sources: - url: https://github.com/alibaba/MNN/releases/tag/3.5.0 title: "MNN 3.5.0 版本发布说明" date: 2026-04 created: 2026-04-14
MNN 3.5.0 — 阿里端侧推理引擎重大更新¶
概述¶
MNN(Mobile Neural Network)是阿里巴巴开源的端侧深度学习推理引擎,MNN 3.5.0 于 2026 年 4 月发布,聚焦三大核心主题:多后端 LLM 推理能力扩展、高性能量化与采样优化以及端侧语音交互体验增强。
为什么重要¶
MNN 是手机端 AI 推理的关键基础设施之一,与 [[ggml-llamacpp-hf]]、[[gemma-cpp-inference]] 等引擎竞争。3.5.0 版本标志着 MNN 从"通用模型推理"向"完整 LLM 推理栈"的转变:
- Vulkan LLM 推理首次让 MNN 在所有支持 Vulkan 的移动 GPU 上运行 LLM,不再依赖特定厂商的 SDK
- TurboQuant TQ3/TQ4 KV Cache 量化方案直接解决了端侧 LLM 最大的瓶颈——内存占用
- 异步 Token2Wav 三阶段流水线将语音合成延迟从串行变并行,这对端侧实时语音助手至关重要
- Tokenizer 20x 加速让模型冷启动和首 token 延迟大幅降低
核心更新¶
🚀 多后端 LLM 推理¶
| 后端 | 新增能力 |
|---|---|
| Vulkan | 全面支持 LLM 推理,覆盖所有 Vulkan GPU |
| MUSA | 摩尔线程 MUSA GPU 全新接入(国产 GPU 生态) |
| QNN | 支持 Attention 算子 + 更多 LLM 算子 |
| CPU | RISC-V 向量扩展(RVV)支持落地 |
🧠 高性能量化与采样¶
- TurboQuant TQ3/TQ4:全新 KV Cache 量化方案,3/4 bit 量化降低内存同时保持推理质量
- Sampler Pipeline:采样器重构为流水线架构,支持 Penalty(重复惩罚)等高级策略
- 多轮对话 Prompt Cache:文本级别缓存,多轮对话场景显著加速首 Token 生成
- TopKV2 优化:Metal/CUDA/OpenCL 多端实现,CUDA 版本使用堆排序 + 循环展开
🎤 端侧语音交互¶
- 异步 Token2Wav 三阶段流水线:DiT ∥ Vocoder 并行处理,大幅提升语音合成吞吐
- 智能打断(AEC Barge-in):支持回声消除的智能语音打断,提升自然度
- 实时视觉语音交互:支持视觉输入的语音交互场景
- TTS 模型支持:supertonic-tts-mnn 集成
🔧 其他亮点¶
- Tokenizer 全面重构:minja → jinja 模板引擎迁移,新增二进制 tokenizer 格式(tokenizer.mtok),加载速度 20x+,编解码性能数倍提升
- GLM-OCR / LFM 支持:新增 GLM-OCR 和 Liquid Foundation Model 推理
- Qwen3.5 Smooth/Omni 导出:支持 Qwen3.5 的 Smooth 量化和 Omni 模态导出
- Linear Attention 磁盘存储:支持循环状态的磁盘读写
- mmap_size 配置:控制内存映射大小
生态位置¶
MNN 在手机端 AI 推理栈中的定位:
┌─────────────────────────────────────────────┐
│ 应用层 (AI 助手、相机、语音) │
├─────────────────────────────────────────────┤
│ 推理引擎 │ MNN │ llama.cpp │ Core ML │ ... │
├─────────────────────────────────────────────┤
│ 量化工具链 │ MNN Convert │ gguf │ coremltools │
├─────────────────────────────────────────────┤
│ 硬件后端 │ Vulkan │ Metal │ OpenCL │ QNN │ MUSA │
└─────────────────────────────────────────────┘
关联¶
- [[kv-cache-quantization-ondevice]] — TurboQuant 的学术背景
- [[ggml-llamacpp-hf]] — 竞品推理引擎
- [[gemma-cpp-inference]] — Google 端侧推理
- [[coremltools-9]] — Apple 工具链
- [[mnn-350]] — NVIDIA 服务端推理