type: entity tags: [llama.cpp, ggml, gemma4, inference, on-device, model-detection, 推理框架] related: [[llamacpp-b8827]], [[gemma4-ondevice]], [[ggml-llamacpp-hf]], [[gemma-cpp-inference]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8828 title: "ggml-org/llama.cpp: b8828" date: 2026-04-17 reliability: high - url: https://github.com/ggml-org/llama.cpp/pull/22027 title: "PR #22027: model : Gemma4 model type detection" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17
llama.cpp b8828¶
新增 Gemma4 模型类型自动检测,修复 llama-bench 等工具中 Gemma4 31B/26BA4B 显示为 "?B" 的问题。
核心更新¶
本次发布的焦点是 PR #22027:Gemma4 模型类型检测。这是一个看似微小但对端侧生态意义重大的修复。
技术细节¶
- 模型类型自动识别:新增 Gemma4 31B 和 26BA4B(26B 激活参数,4B 模型分片)两种变体的类型检测逻辑
- 纯展示性修复:不改变推理行为,修正
llama-bench、llama-server等工具中 Gemma4 模型的参数量显示 - 代码改动极小:仅修改 2 个文件,+7/-1 行 — 说明是精准的元数据修补而非大规模重构
- 覆盖两种 Gemma4 变体:
- Gemma4 31B:完整参数量 31B 的模型
- Gemma4 26BA4B:MoE 风格架构,26B 激活参数,4B 分片大小
平台支持¶
b8828 继续提供全面的跨平台二进制分发,与 b8827 一致:
| 平台 | 变体 |
|---|---|
| macOS | arm64, arm64 KleidiAI, x64 |
| iOS | XCFramework |
| Linux | x64/arm64/s390x CPU, Vulkan, ROCm 7.2, OpenVINO |
| Windows | x64/arm64 CPU, CUDA 12/13, Vulkan, SYCL, HIP |
| openEuler | 310p, 910b ACL Graph |
为什么重要¶
对手机端 AIOS 生态而言:
- Gemma4 是 Google 端侧 LLM 主力:Google 正将 Gemma4 作为 on-device AI 核心模型推广,llama.cpp 作为最流行的本地推理框架,Gemma4 支持的完善程度直接影响开发者体验
- 模型类型检测是工具链基础:错误的参数量显示会导致 benchmark 失真、资源预估错误、量化配置不匹配 — 这些在端侧资源受限的设备上尤为关键
- 26BA4B 的特殊架构需要显式支持:MoE 风格的 Gemma4 变体在端侧推理时的内存占用和延迟特性与 dense 31B 完全不同,自动检测确保工具链能正确区分
- 从 b8827 的 OpenCL Adreno 到 b8828 的 Gemma4 支持:llama.cpp 在移动端推理上的迭代速度持续保持高位
关联¶
- [[llamacpp-b8827]] — 前一个版本,OpenCL Adreno GPU 调度重构
- [[gemma4-ondevice]] — Gemma4 端侧部署的详细概述
- [[ggml-llamacpp-hf]] — GGML 与 llama.cpp 加入 HuggingFace 的生态概述
- [[gemma-cpp-inference]] — Google 官方的 Gemma C++ 推理实现