type: entity tags: [推理框架, llama.cpp, GitHub, GGML, 端侧推理] related: [[ggml-llamacpp-hf]], [[llamacpp-b8797]], [[mnn-350]], [[gemma-cpp-inference]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8808 title: "ggml-org/llama.cpp: b8808" date: 2026-04-16 reliability: high created: 2026-04-16 updated: 2026-04-16

llama.cpp b8808¶

GGML 生态的核心推理引擎持续迭代，b8808 是最新版本（2026-04-16 发布），包含多项推理优化和 bug 修复。

概述¶

llama.cpp 是端侧 LLM 推理的事实标准框架，基于 GGML 张量库，支持 CPU、Apple Silicon 和消费级 GPU 推理。b8808 继续在性能优化和模型兼容性方面推进。

版本追踪¶

版本	发布日期	距前版间隔
b8783	2026-04-08	—
b8795	2026-04-13	5天
b8797	2026-04-14	1天
b8796	2026-04-14	同日
b8808	2026-04-16	2天

开发节奏非常快，几乎每日都有新版本发布。

端侧推理生态位置¶

llama.cpp 在手机端 AIOS 的推理栈中占据核心位置：

GGML 格式是端侧模型分发的事实标准
支持多种量化方案 (Q4_0, Q4_1, Q5_0, Q5_1, Q8_0 等)
与 [[mnn-350]] (阿里 MNN) 和 CoreML 形成竞争/互补关系
[[ggml-llamacpp-hf]] 与 HuggingFace 的整合加速了生态发展

关联¶

[[ggml-llamacpp-hf]] — GGML/llama.cpp 加入 HuggingFace 的背景
[[llamacpp-b8797]] — 前一版本
[[mnn-350]] — 竞争推理框架
[[gemma-cpp-inference]] — gemma.cpp 基于 GGML 库
[[kl-quantization-ssm-transformer]] — 量化技术与 llama.cpp 的量化方案互补