type: concept tags: [inference, on-device, cpp, google, gemma, cpu, lightweight] related: [[ggml-llamacpp-hf]], [[mnn-350]], [[gemma4-ondevice]], [[gemma4-ondevice]] sources: - url: https://github.com/google/gemma.cpp/releases/tag/v0.1.4 title: "gemma.cpp v0.1.4 release" date: 2025-03-25 created: 2026-04-14

gemma.cpp — Google Gemma 轻量级 C++ 推理引擎¶

概述¶

gemma.cpp 是 Google 推出的 Gemma 模型专用 C++ 推理实现，设计目标是极简依赖、直接高效地运行 Gemma 系列模型。与 [[ggml-llamacpp-hf]] 的通用性不同，gemma.cpp 专注于 Gemma 架构的极致优化。

v0.1.4 更新内容¶

Gemma 构造函数重构：改进 NUMA 内存池支持，优化多核 CPU 场景下的推理性能
修复 Gemma3-1B 提示词包装：小模型的 prompt 处理更准确
辅助 EOS token 支持：支持 Gemma2 的 secondary EOS token，提升生成终止精度
注意力长度与 SFP 说明文档

技术特点¶

零依赖设计：不依赖 PyTorch/TensorFlow，纯 C++ 实现
NUMA 优化：针对服务器和高端工作站的多 NUMA 节点内存架构做了优化
KleidiAI 集成：macOS 版本支持 ARM KleidiAI 加速
Gemma 全系列支持：Gemma 1/2/3 均可推理

为什么重要¶

gemma.cpp 是端侧 Gemma 推理的"原生"方案： - Google 官方维护，保证与 Gemma 模型演进同步 - 极小的二进制体积，适合嵌入式和移动场景 - 与 [[ggml-llamacpp-hf]] 形成互补：llama.cpp 胜在通用性，gemma.cpp 胜在 Gemma 专用优化 - 是构建 [[mobile-aios-overview]] 中轻量推理层的重要候选方案

关联¶

[[ggml-llamacpp-hf]] — 竞争/互补方案，通用性更强
[[mnn-350]] — 阿里巴巴的端侧推理框架
[[gemma4-ondevice]] — 可通过 gemma.cpp 推理的端侧模型
[[edgeflow-cold-start]] — 冷启动优化与推理框架紧密相关