type: entity tags: [llama-cpp, inference-engine, ggml, release, 推理框架, 开源] related: [[ggml-llamacpp-hf]], [[llamacpp-b8831]], [[llamacpp-b8833]], [[mnn-350]], [[vllm-mlx-apple-silicon]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8836 title: "ggml-org/llama.cpp: b8836" date: 2026-04-18 reliability: high created: 2026-04-18 updated: 2026-04-18

llama.cpp b8836¶

llama.cpp b8836 发布于 2026-04-18，主要改进为 CI 基础设施优化（ROCm 发布磁盘空间释放），继续提供全平台预编译二进制。

版本概要¶

b8836 是一个维护性版本，变更内容集中在 CI/CD 流程：

核心变更：释放 ROCm 发布流程中的磁盘空间（#22012）
无功能性代码变更

平台支持¶

延续全平台预编译策略：

平台	变体
macOS Apple Silicon	CPU, KleidiAI 加速
macOS Intel	CPU
iOS	XCFramework
Linux x64	CPU, Vulkan, ROCm 7.2, OpenVINO
Linux arm64	CPU, Vulkan
Linux s390x	CPU
Android arm64	CPU
Windows x64	CPU, CUDA 12
Windows arm64	CPU

关键洞察¶

持续高频迭代：从 b8831 到 b8836 仅 5 个构建版本，体现了 llama.cpp 的极高迭代频率。这种日级发布节奏保证了端侧推理引擎能快速吸收社区贡献。

ROCm 7.2 支持：AMD ROCm 7.2 预编译版本的提供，意味着 AMD GPU 推理生态在 llama.cpp 中的成熟度提升，为 Linux 端侧推理提供了更多硬件选择。

为什么重要¶

llama.cpp 作为端侧 LLM 推理的核心引擎，每个版本都确保了最新模型的快速适配。对手机端 AIOS 而言，iOS XCFramework 和 Android arm64 的持续预编译保证了端侧部署的可用性。

关联¶

[[ggml-llamacpp-hf]] — llama.cpp 加入 HuggingFace 的生态整合
[[llamacpp-b8831]], [[llamacpp-b8833]] — 近期版本对比
[[mnn-350]] — 阿里 MNN 推理引擎，同为端侧推理竞争者
[[vllm-mlx-apple-silicon]] — vLLM-MLX 在 Apple Silicon 的高性能推理