type: entity tags: [推理引擎, Apple Silicon, MLX, LLM, 基准测试] related: [[ggml-llamacpp-hf]], [[coremltools-9]], [[imp-mobile-lmm]] sources: - url: https://arxiv.org/abs/2511.05502 title: "Production-Grade Local LLM Inference on Apple Silicon: A Comparative Study of MLX, MLC-LLM, Ollama, llama.cpp, and PyTorch MPS" date: 2025-11-08 reliability: high created: 2026-04-21 updated: 2026-04-21
Apple Silicon 本地 LLM 推理全面对比¶
在 Apple M2 Ultra (192GB 统一内存) 上,对 MLX、MLC-LLM、Ollama、llama.cpp、PyTorch MPS 五大本地 LLM 运行时进行了系统性实证评估,使用 Qwen-2.5 模型家族在 100 至 100K token 的 prompt 范围内测量各项性能指标。
核心问题¶
Apple Silicon 的统一内存架构为端侧 LLM 推理提供了独特优势(大内存容量、高带宽、CPU/GPU 共享),但目前存在多个竞争运行时(MLX、MLC-LLM、Ollama、llama.cpp、PyTorch MPS),开发者缺乏系统性的性能对比数据来指导选择。
方法/架构¶
- 测试平台:Mac Studio,M2 Ultra 处理器,192GB 统一内存
- 模型:Qwen-2.5 模型家族(多个参数规模)
- Prompt 范围:从几百 token 到 100K token
- 测量指标:Time-to-First-Token (TTFT)、吞吐量、内存使用等
实验结果¶
| 运行时 | 优势场景 | 关键指标 |
|---|---|---|
| MLX | Apple 原生优化,大模型推理 | 统一内存利用率高 |
| MLC-LLM | 跨平台部署,模型编译优化 | 首次 token 延迟低 |
| Ollama | 易用性最佳,开箱即用 | 用户体验友好 |
| llama.cpp | 生态最广,量化支持最强 | 小模型效率高 |
| PyTorch MPS | 研究灵活性,自定义能力强 | 适合实验开发 |
关键洞察¶
统一内存是 Apple 推理的核心优势:192GB 统一内存允许运行超大模型而无需量化,这是 x86 平台无法比拟的。但不同运行时对统一内存的利用率差异显著。
没有"最佳"运行时:不同运行时在不同场景(小 prompt vs 大 prompt、小模型 vs 大模型、批量推理 vs 交互式推理)下各有优劣。选择应基于具体使用场景。
为什么重要¶
- iPhone/Mac AI 开发者指南:为 Apple 生态下的端侧 LLM 推理选型提供了最全面的基准数据
- 统一内存架构的潜力:展示了 Apple Silicon 在端侧 AI 推理方面的独特优势
- 运行时生态成熟度:揭示了各运行时的实际表现和适用场景
关联¶
- [[ggml-llamacpp-hf]] — llama.cpp 是评测对象之一,该页面详细介绍了其架构和优化技术
- [[coremltools-9]] — Apple 的模型转换工具链,与这些运行时协同工作
- [[imp-mobile-multimodal]] — 另一个端侧多模态模型,可在 Apple Silicon 上部署