type: entity tags: [推理框架, llama.cpp, ggml, 推理引擎, 端侧推理, 开源] related: [[ggml-llamacpp-hf]], [[llamacpp-b8838]], [[mnn-350]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8839 title: "ggml-org/llama.cpp b8839 release" date: 2026-04-18 reliability: high created: 2026-04-18 updated: 2026-04-18
llama.cpp b8839¶
持续迭代的端侧 LLM 推理引擎,本版本聚焦模型层代码重构。
核心变更¶
- 模型层重构 (#22079): 重构 bias tensor 变量命名,统一 jina-bert-v2 等模型中
create_tensor_qkv的使用方式。这是纯内部重构,不改变 API 或推理行为,但提升了代码可维护性。
平台支持¶
本版本继续提供完整的跨平台构建:
| 平台 | 构建 |
|---|---|
| macOS/iOS | arm64, x64, KleidiAI, XCFramework |
| Linux | x64/arm64/s390x CPU, Vulkan, ROCm 7.2, OpenVINO |
| Android | arm64 CPU |
| Windows | x64/arm64 CPU, CUDA 12/13, Vulkan, SYCL, HIP |
| openEuler | 310p, 910B |
关键洞察¶
llama.cpp 保持极高的迭代频率(从 b8838 到 b8839 仅 1 个 commit),说明项目处于活跃维护状态。对于移动端 AIOS 开发者而言:
- iOS XCFramework: 持续提供 iOS 原生集成支持,是 Core ML 之外的重要端侧推理选项
- Android arm64: 直接可用的 Android 预编译二进制,降低端侧部署门槛
- KleidiAI 构建: 针对 ARM 架构优化的推理路径,对移动端性能至关重要
为什么重要¶
llama.cpp 是端侧 LLM 推理的事实标准引擎。本版本虽为小幅重构,但体现了: - 代码质量持续优化(变量命名规范化) - 全平台覆盖无死角(iOS/Android/Linux/Windows 均有预编译包) - 生态系统稳定(MNN、coremltools 等竞品/互补方案也在同步迭代)
关联¶
- [[ggml-llamacpp-hf]] — llama.cpp 主页与生态概述
- [[llamacpp-b8838]] — 前一版本,主要包含模型支持更新
- [[mnn-350]] — 阿里 MNN,另一端侧推理框架
- [[coremltools-9]] — Apple Core ML 工具链,llama.cpp XCFramework 的替代/互补方案