type: entity tags: [模型, Gemma, Google, 端侧推理, AICore, 多模态, agentic] related: [[gemini-31-flash-lite]], [[gemma-3-2b]], [[minicpm-242]], [[on-device-inference-memory-pressure]], [[android-agent-assistant]] sources: - url: https://deepmind.google/blog/gemma-4-byte-for-byte-the-most-capable-open-models/ title: "Gemma 4: Byte for byte, the most capable open models" date: 2026-04-02 reliability: high - url: https://android-developers.googleblog.com/2026/04/AI-Core-Developer-Preview.html title: "Announcing Gemma 4 in the AICore Developer Preview" date: 2026-04-02 reliability: high created: 2026-04-18 updated: 2026-04-18
Gemma 4: 端侧开源模型新标杆¶
Google DeepMind 发布的最新开源模型家族,专为端侧推理和 Agent 工作流设计,是 Gemini Nano 4 的基础。
核心问题¶
端侧设备(手机、平板、穿戴设备)需要强大的 AI 能力,但受限于算力、内存和功耗。现有开源模型在端侧部署时,要么能力不足(简单对话),要么体积过大(无法在移动设备上运行)。Gemma 4 旨在提供"每字节最高智能密度"的开源模型。
模型架构与规格¶
Gemma 4 提供四个尺寸变体,覆盖从旗舰手机到高端服务器的全场景:
| 变体 | 参数量 | 架构 | 目标硬件 | 关键特性 |
|---|---|---|---|---|
| E2B (Effective 2B) | ~2B | Dense | 旗舰手机/穿戴 | 多模态、低延迟、电池优化 |
| E4B (Effective 4B) | ~4B | Dense | 手机/平板 | 平衡性能与效率 |
| 26B MoE | 26B 总参/~4B 活跃 | Mixture of Experts | 桌面/边缘服务器 | 高性能稀疏激活 |
| 31B Dense | 31B | Dense | GPU 服务器 | 最大推理能力 |
E2B 和 E4B 是端侧部署的核心:原生支持 140+ 语言、多模态输入(图像+文本)、低延迟处理。相比前代模型,速度快 4 倍,功耗降低 60%。
AICore 集成¶
Gemma 4 是下一代 Gemini Nano 的基础。通过 AICore Developer Preview,开发者可以: - 直接在 AICore 启用设备上测试 - 使用 Google、MediaTek、Qualcomm 最新 AI 加速器 - 提前适配 Gemini Nano 4 API(代码自动兼容)
val previewFullConfig = generationConfig {
modelConfig = ModelConfig {
releaseTrack = ModelReleaseTrack.PREVIEW
// ...
}
}
即将支持:Tool Calling、结构化输出、System Prompt、Thinking Mode(Prompt API)。
关键洞察¶
-
MoE 架构是端侧的未来:26B MoE 变体只激活 ~4B 参数,却能达到接近 31B Dense 的性能。这种稀疏激活模式天然适合功耗受限的移动设备——只在需要时消耗算力。
-
"Effective" 参数量命名:Google 不再强调原始参数量,而是强调"有效计算等效参数"。E2B 的命名暗示它在实际任务中的表现相当于传统 2B dense 模型,但多模态能力更强。这反映了端侧 AI 从"参数竞赛"转向"智能密度"的趋势。
-
AICore 作为 Android AI 抽象层:Gemma 4 通过 AICore 访问,而非直接调用底层推理引擎。这意味着模型可以利用 OEM 厂商(高通、联发科)的硬件优化,同时保持 API 一致性。开发者无需关心具体是 NPU 还是 GPU 运行推理。
-
从 Gemma 3 到 Gemma 4 的飞跃:前代 Gemma 3 2B 在端侧主要支持基础文本生成。Gemma 4 E2B 原生支持多模态、140+ 语言、Agent 工作流,是端侧模型能力的一次重大跨越。
为什么重要¶
Gemma 4 代表了端侧开源模型的拐点: - 开发者不再需要在能力与效率之间二选一——E2B 提供多模态+Agent 能力,同时保持手机可用的推理速度 - AICore 集成消除了碎片化——一套 API 适配所有 Android OEM 的 AI 加速器 - 开源意味着可微调——开发者可以在端侧 fine-tune Gemma 4 以实现特定任务的 SOTA 性能 - 为 Android Agent 生态奠定基础——Gemma 4 + AICore + Android Skills = 完整的端侧 Agent 开发栈
关联¶
- [[gemini-31-flash-lite]] — 同期发布的轻量级 Gemini 变体,云端推理优化
- [[gemma-3-2b]] — Gemma 系列前代端侧模型
- [[minicpm-242]] — 开源端侧模型的另一个选择
- [[on-device-inference-memory-pressure]] — 端侧推理的内存管理挑战
- [[android-agent-assistant]] — 基于 Android 的 Agent 系统
- [[ggml-llamacpp-hf]] — Gemma 4 可通过 llama.cpp 在非 Android 设备上运行