跳转至

type: entity tags: [推理框架, llama.cpp, GitHub, GGML, 端侧推理] related: [[ggml-llamacpp-hf]], [[llamacpp-b8797]], [[mnn-350]], [[gemma-cpp-inference]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8808 title: "ggml-org/llama.cpp: b8808" date: 2026-04-16 reliability: high created: 2026-04-16 updated: 2026-04-16


llama.cpp b8808

GGML 生态的核心推理引擎持续迭代,b8808 是最新版本(2026-04-16 发布),包含多项推理优化和 bug 修复。

概述

llama.cpp 是端侧 LLM 推理的事实标准框架,基于 GGML 张量库,支持 CPU、Apple Silicon 和消费级 GPU 推理。b8808 继续在性能优化和模型兼容性方面推进。

版本追踪

版本 发布日期 距前版间隔
b8783 2026-04-08
b8795 2026-04-13 5天
b8797 2026-04-14 1天
b8796 2026-04-14 同日
b8808 2026-04-16 2天

开发节奏非常快,几乎每日都有新版本发布。

端侧推理生态位置

llama.cpp 在手机端 AIOS 的推理栈中占据核心位置:

  • GGML 格式是端侧模型分发的事实标准
  • 支持多种量化方案 (Q4_0, Q4_1, Q5_0, Q5_1, Q8_0 等)
  • 与 [[mnn-350]] (阿里 MNN) 和 CoreML 形成竞争/互补关系
  • [[ggml-llamacpp-hf]] 与 HuggingFace 的整合加速了生态发展

关联

  • [[ggml-llamacpp-hf]] — GGML/llama.cpp 加入 HuggingFace 的背景
  • [[llamacpp-b8797]] — 前一版本
  • [[mnn-350]] — 竞争推理框架
  • [[gemma-cpp-inference]] — gemma.cpp 基于 GGML 库
  • [[kl-quantization-ssm-transformer]] — 量化技术与 llama.cpp 的量化方案互补