跳转至

type: entity tags: [llama.cpp, ggml, gemma4, inference, on-device, model-detection, 推理框架] related: [[llamacpp-b8827]], [[gemma4-ondevice]], [[ggml-llamacpp-hf]], [[gemma-cpp-inference]] sources: - url: https://github.com/ggml-org/llama.cpp/releases/tag/b8828 title: "ggml-org/llama.cpp: b8828" date: 2026-04-17 reliability: high - url: https://github.com/ggml-org/llama.cpp/pull/22027 title: "PR #22027: model : Gemma4 model type detection" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17


llama.cpp b8828

新增 Gemma4 模型类型自动检测,修复 llama-bench 等工具中 Gemma4 31B/26BA4B 显示为 "?B" 的问题。

核心更新

本次发布的焦点是 PR #22027:Gemma4 模型类型检测。这是一个看似微小但对端侧生态意义重大的修复。

技术细节

  • 模型类型自动识别:新增 Gemma4 31B 和 26BA4B(26B 激活参数,4B 模型分片)两种变体的类型检测逻辑
  • 纯展示性修复:不改变推理行为,修正 llama-benchllama-server 等工具中 Gemma4 模型的参数量显示
  • 代码改动极小:仅修改 2 个文件,+7/-1 行 — 说明是精准的元数据修补而非大规模重构
  • 覆盖两种 Gemma4 变体
  • Gemma4 31B:完整参数量 31B 的模型
  • Gemma4 26BA4B:MoE 风格架构,26B 激活参数,4B 分片大小

平台支持

b8828 继续提供全面的跨平台二进制分发,与 b8827 一致:

平台 变体
macOS arm64, arm64 KleidiAI, x64
iOS XCFramework
Linux x64/arm64/s390x CPU, Vulkan, ROCm 7.2, OpenVINO
Windows x64/arm64 CPU, CUDA 12/13, Vulkan, SYCL, HIP
openEuler 310p, 910b ACL Graph

为什么重要

对手机端 AIOS 生态而言:

  • Gemma4 是 Google 端侧 LLM 主力:Google 正将 Gemma4 作为 on-device AI 核心模型推广,llama.cpp 作为最流行的本地推理框架,Gemma4 支持的完善程度直接影响开发者体验
  • 模型类型检测是工具链基础:错误的参数量显示会导致 benchmark 失真、资源预估错误、量化配置不匹配 — 这些在端侧资源受限的设备上尤为关键
  • 26BA4B 的特殊架构需要显式支持:MoE 风格的 Gemma4 变体在端侧推理时的内存占用和延迟特性与 dense 31B 完全不同,自动检测确保工具链能正确区分
  • 从 b8827 的 OpenCL Adreno 到 b8828 的 Gemma4 支持:llama.cpp 在移动端推理上的迭代速度持续保持高位

关联

  • [[llamacpp-b8827]] — 前一个版本,OpenCL Adreno GPU 调度重构
  • [[gemma4-ondevice]] — Gemma4 端侧部署的详细概述
  • [[ggml-llamacpp-hf]] — GGML 与 llama.cpp 加入 HuggingFace 的生态概述
  • [[gemma-cpp-inference]] — Google 官方的 Gemma C++ 推理实现