type: entity tags: [inference, mnn, llm, mobile, android, ios, quantization, gpu, vulkan, risc-v, tokenizer, voice, 平台] related: [[kv-cache-quantization-ondevice]], [[ggml-llamacpp-hf]], [[gemma-cpp-inference]], [[coremltools-9]], [[mnn-350]] sources: - url: https://github.com/alibaba/MNN/releases/tag/3.5.0 title: "MNN 3.5.0 版本发布说明" date: 2026-04 created: 2026-04-14

MNN 3.5.0 — 阿里端侧推理引擎重大更新¶

概述¶

MNN（Mobile Neural Network）是阿里巴巴开源的端侧深度学习推理引擎，MNN 3.5.0 于 2026 年 4 月发布，聚焦三大核心主题：多后端 LLM 推理能力扩展、高性能量化与采样优化以及端侧语音交互体验增强。

为什么重要¶

MNN 是手机端 AI 推理的关键基础设施之一，与 [[ggml-llamacpp-hf]]、[[gemma-cpp-inference]] 等引擎竞争。3.5.0 版本标志着 MNN 从"通用模型推理"向"完整 LLM 推理栈"的转变：

Vulkan LLM 推理首次让 MNN 在所有支持 Vulkan 的移动 GPU 上运行 LLM，不再依赖特定厂商的 SDK
TurboQuant TQ3/TQ4 KV Cache 量化方案直接解决了端侧 LLM 最大的瓶颈——内存占用
异步 Token2Wav 三阶段流水线将语音合成延迟从串行变并行，这对端侧实时语音助手至关重要
Tokenizer 20x 加速让模型冷启动和首 token 延迟大幅降低

核心更新¶

🚀 多后端 LLM 推理¶

后端	新增能力
Vulkan	全面支持 LLM 推理，覆盖所有 Vulkan GPU
MUSA	摩尔线程 MUSA GPU 全新接入（国产 GPU 生态）
QNN	支持 Attention 算子 + 更多 LLM 算子
CPU	RISC-V 向量扩展（RVV）支持落地

🧠 高性能量化与采样¶

TurboQuant TQ3/TQ4：全新 KV Cache 量化方案，3/4 bit 量化降低内存同时保持推理质量
Sampler Pipeline：采样器重构为流水线架构，支持 Penalty（重复惩罚）等高级策略
多轮对话 Prompt Cache：文本级别缓存，多轮对话场景显著加速首 Token 生成
TopKV2 优化：Metal/CUDA/OpenCL 多端实现，CUDA 版本使用堆排序 + 循环展开

🎤 端侧语音交互¶

异步 Token2Wav 三阶段流水线：DiT ∥ Vocoder 并行处理，大幅提升语音合成吞吐
智能打断（AEC Barge-in）：支持回声消除的智能语音打断，提升自然度
实时视觉语音交互：支持视觉输入的语音交互场景
TTS 模型支持：supertonic-tts-mnn 集成

🔧 其他亮点¶

Tokenizer 全面重构：minja → jinja 模板引擎迁移，新增二进制 tokenizer 格式（tokenizer.mtok），加载速度 20x+，编解码性能数倍提升
GLM-OCR / LFM 支持：新增 GLM-OCR 和 Liquid Foundation Model 推理
Qwen3.5 Smooth/Omni 导出：支持 Qwen3.5 的 Smooth 量化和 Omni 模态导出
Linear Attention 磁盘存储：支持循环状态的磁盘读写
mmap_size 配置：控制内存映射大小

生态位置¶

MNN 在手机端 AI 推理栈中的定位：

┌─────────────────────────────────────────────┐
│           应用层 (AI 助手、相机、语音)        │
├─────────────────────────────────────────────┤
│  推理引擎  │ MNN │ llama.cpp │ Core ML │ ... │
├─────────────────────────────────────────────┤
│  量化工具链 │ MNN Convert │ gguf │ coremltools │
├─────────────────────────────────────────────┤
│  硬件后端  │ Vulkan │ Metal │ OpenCL │ QNN │ MUSA │
└─────────────────────────────────────────────┘

关联¶

[[kv-cache-quantization-ondevice]] — TurboQuant 的学术背景
[[ggml-llamacpp-hf]] — 竞品推理引擎
[[gemma-cpp-inference]] — Google 端侧推理
[[coremltools-9]] — Apple 工具链
[[mnn-350]] — NVIDIA 服务端推理