type: entity tags: [llama-cpp, inference-engine, ggml, release, 推理框架, 开源, android] related: [[ggml-llamacpp-hf]], [[llamacpp-b8836]], [[mnn-350]], [[vllm-mlx-apple-silicon]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8838 title: "ggml-org/llama.cpp: b8838" date: 2026-04-18 reliability: high created: 2026-04-18 updated: 2026-04-18
llama.cpp b8838¶
llama.cpp b8838 发布于 2026-04-18,包含 2 个提交:Android 构建系统模块化重构(libcommon → libllama-common)和后端多段张量读取支持。
版本概要¶
b8838 是 b8836 的增量更新,主要包含两项改进:
1. Android 构建模块化 (#22076)¶
将 Android 端的 libcommon 库重构为独立的 libllama-common。这一改动的核心意义在于:
- 解耦公共依赖:Android 端推理库的公共代码(日志、配置、内存管理等)现在作为独立模块编译,避免与主推理库(libllama)的链接冲突
- 减小 APK 体积:多个 Android 应用可以共享同一个
libllama-common,减少重复代码 - 简化集成流程:开发者在 Android 项目中集成 llama.cpp 时,依赖关系更清晰
这对[[mnn-350]]等其他端侧推理框架的 Android 集成方案具有参考价值——模块化构建是大规模跨平台项目持续维护的基础。
2. 后端多段张量读取 (#22063)¶
ggml-backend-meta 新增 get_tensor 的多段读取(multi-segment read)支持。技术细节:
- 允许单次
get_tensor调用从多个非连续内存段读取数据 - 适用于张量在内存中分段存储的场景(如碎片化的模型文件、分布式加载)
- 对端侧推理的内存优化有潜在价值——支持更灵活的内存布局
平台支持¶
b8838 继续提供全平台预编译二进制: - macOS:Apple Silicon (arm64)、Intel (x64)、KleidiAI 增强版 - Linux:Ubuntu x64/arm64/s390x、Vulkan、ROCm 7.2、OpenVINO - Android:arm64 (CPU) - iOS:XCFramework - Windows:x64/arm64 (CPU)、CUDA 12
为什么重要¶
虽然 b8838 是增量版本,但 Android 构建模块化体现了 llama.cpp 在移动端持续投入的信号。随着[[ggml-llamacpp-hf]]生态的成熟,构建系统的工程化质量直接影响第三方应用的采纳速度。
关联¶
- [[ggml-llamacpp-hf]] — llama.cpp 生态概览
- [[llamacpp-b8836]] — 上一版本
- [[mnn-350]] — 阿里 MNN 端侧推理框架
- [[vllm-mlx-apple-silicon]] — vLLM + MLX Apple Silicon 方案