跳转至

type: entity tags: [inference, mnn, llm, mobile, android, ios, quantization, gpu, vulkan, risc-v, tokenizer, voice, 平台] related: [[kv-cache-quantization-ondevice]], [[ggml-llamacpp-hf]], [[gemma-cpp-inference]], [[coremltools-9]], [[mnn-350]] sources: - url: https://github.com/alibaba/MNN/releases/tag/3.5.0 title: "MNN 3.5.0 版本发布说明" date: 2026-04 created: 2026-04-14


MNN 3.5.0 — 阿里端侧推理引擎重大更新

概述

MNN(Mobile Neural Network)是阿里巴巴开源的端侧深度学习推理引擎,MNN 3.5.0 于 2026 年 4 月发布,聚焦三大核心主题:多后端 LLM 推理能力扩展高性能量化与采样优化以及端侧语音交互体验增强

为什么重要

MNN 是手机端 AI 推理的关键基础设施之一,与 [[ggml-llamacpp-hf]]、[[gemma-cpp-inference]] 等引擎竞争。3.5.0 版本标志着 MNN 从"通用模型推理"向"完整 LLM 推理栈"的转变:

  • Vulkan LLM 推理首次让 MNN 在所有支持 Vulkan 的移动 GPU 上运行 LLM,不再依赖特定厂商的 SDK
  • TurboQuant TQ3/TQ4 KV Cache 量化方案直接解决了端侧 LLM 最大的瓶颈——内存占用
  • 异步 Token2Wav 三阶段流水线将语音合成延迟从串行变并行,这对端侧实时语音助手至关重要
  • Tokenizer 20x 加速让模型冷启动和首 token 延迟大幅降低

核心更新

🚀 多后端 LLM 推理

后端 新增能力
Vulkan 全面支持 LLM 推理,覆盖所有 Vulkan GPU
MUSA 摩尔线程 MUSA GPU 全新接入(国产 GPU 生态)
QNN 支持 Attention 算子 + 更多 LLM 算子
CPU RISC-V 向量扩展(RVV)支持落地

🧠 高性能量化与采样

  • TurboQuant TQ3/TQ4:全新 KV Cache 量化方案,3/4 bit 量化降低内存同时保持推理质量
  • Sampler Pipeline:采样器重构为流水线架构,支持 Penalty(重复惩罚)等高级策略
  • 多轮对话 Prompt Cache:文本级别缓存,多轮对话场景显著加速首 Token 生成
  • TopKV2 优化:Metal/CUDA/OpenCL 多端实现,CUDA 版本使用堆排序 + 循环展开

🎤 端侧语音交互

  • 异步 Token2Wav 三阶段流水线:DiT ∥ Vocoder 并行处理,大幅提升语音合成吞吐
  • 智能打断(AEC Barge-in):支持回声消除的智能语音打断,提升自然度
  • 实时视觉语音交互:支持视觉输入的语音交互场景
  • TTS 模型支持:supertonic-tts-mnn 集成

🔧 其他亮点

  • Tokenizer 全面重构:minja → jinja 模板引擎迁移,新增二进制 tokenizer 格式(tokenizer.mtok),加载速度 20x+,编解码性能数倍提升
  • GLM-OCR / LFM 支持:新增 GLM-OCR 和 Liquid Foundation Model 推理
  • Qwen3.5 Smooth/Omni 导出:支持 Qwen3.5 的 Smooth 量化和 Omni 模态导出
  • Linear Attention 磁盘存储:支持循环状态的磁盘读写
  • mmap_size 配置:控制内存映射大小

生态位置

MNN 在手机端 AI 推理栈中的定位:

┌─────────────────────────────────────────────┐
│           应用层 (AI 助手、相机、语音)        │
├─────────────────────────────────────────────┤
│  推理引擎  │ MNN │ llama.cpp │ Core ML │ ... │
├─────────────────────────────────────────────┤
│  量化工具链 │ MNN Convert │ gguf │ coremltools │
├─────────────────────────────────────────────┤
│  硬件后端  │ Vulkan │ Metal │ OpenCL │ QNN │ MUSA │
└─────────────────────────────────────────────┘

关联

  • [[kv-cache-quantization-ondevice]] — TurboQuant 的学术背景
  • [[ggml-llamacpp-hf]] — 竞品推理引擎
  • [[gemma-cpp-inference]] — Google 端侧推理
  • [[coremltools-9]] — Apple 工具链
  • [[mnn-350]] — NVIDIA 服务端推理