type: entity tags: [模型, Gemma, Google, 端侧推理, AICore, 多模态, agentic] related: [[gemini-31-flash-lite]], [[gemma-3-2b]], [[minicpm-242]], [[on-device-inference-memory-pressure]], [[android-agent-assistant]] sources: - url: https://deepmind.google/blog/gemma-4-byte-for-byte-the-most-capable-open-models/ title: "Gemma 4: Byte for byte, the most capable open models" date: 2026-04-02 reliability: high - url: https://android-developers.googleblog.com/2026/04/AI-Core-Developer-Preview.html title: "Announcing Gemma 4 in the AICore Developer Preview" date: 2026-04-02 reliability: high created: 2026-04-18 updated: 2026-04-18

Gemma 4: 端侧开源模型新标杆¶

Google DeepMind 发布的最新开源模型家族，专为端侧推理和 Agent 工作流设计，是 Gemini Nano 4 的基础。

核心问题¶

端侧设备（手机、平板、穿戴设备）需要强大的 AI 能力，但受限于算力、内存和功耗。现有开源模型在端侧部署时，要么能力不足（简单对话），要么体积过大（无法在移动设备上运行）。Gemma 4 旨在提供"每字节最高智能密度"的开源模型。

模型架构与规格¶

Gemma 4 提供四个尺寸变体，覆盖从旗舰手机到高端服务器的全场景：

变体	参数量	架构	目标硬件	关键特性
E2B (Effective 2B)	~2B	Dense	旗舰手机/穿戴	多模态、低延迟、电池优化
E4B (Effective 4B)	~4B	Dense	手机/平板	平衡性能与效率
26B MoE	26B 总参/~4B 活跃	Mixture of Experts	桌面/边缘服务器	高性能稀疏激活
31B Dense	31B	Dense	GPU 服务器	最大推理能力

E2B 和 E4B 是端侧部署的核心：原生支持 140+ 语言、多模态输入（图像+文本）、低延迟处理。相比前代模型，速度快 4 倍，功耗降低 60%。

AICore 集成¶

Gemma 4 是下一代 Gemini Nano 的基础。通过 AICore Developer Preview，开发者可以： - 直接在 AICore 启用设备上测试 - 使用 Google、MediaTek、Qualcomm 最新 AI 加速器 - 提前适配 Gemini Nano 4 API（代码自动兼容）

val previewFullConfig = generationConfig {
    modelConfig = ModelConfig {
        releaseTrack = ModelReleaseTrack.PREVIEW
        // ...
    }
}

即将支持：Tool Calling、结构化输出、System Prompt、Thinking Mode（Prompt API）。

关键洞察¶

MoE 架构是端侧的未来：26B MoE 变体只激活 ~4B 参数，却能达到接近 31B Dense 的性能。这种稀疏激活模式天然适合功耗受限的移动设备——只在需要时消耗算力。
"Effective" 参数量命名：Google 不再强调原始参数量，而是强调"有效计算等效参数"。E2B 的命名暗示它在实际任务中的表现相当于传统 2B dense 模型，但多模态能力更强。这反映了端侧 AI 从"参数竞赛"转向"智能密度"的趋势。
AICore 作为 Android AI 抽象层：Gemma 4 通过 AICore 访问，而非直接调用底层推理引擎。这意味着模型可以利用 OEM 厂商（高通、联发科）的硬件优化，同时保持 API 一致性。开发者无需关心具体是 NPU 还是 GPU 运行推理。
从 Gemma 3 到 Gemma 4 的飞跃：前代 Gemma 3 2B 在端侧主要支持基础文本生成。Gemma 4 E2B 原生支持多模态、140+ 语言、Agent 工作流，是端侧模型能力的一次重大跨越。

为什么重要¶

Gemma 4 代表了端侧开源模型的拐点： - 开发者不再需要在能力与效率之间二选一——E2B 提供多模态+Agent 能力，同时保持手机可用的推理速度 - AICore 集成消除了碎片化——一套 API 适配所有 Android OEM 的 AI 加速器 - 开源意味着可微调——开发者可以在端侧 fine-tune Gemma 4 以实现特定任务的 SOTA 性能 - 为 Android Agent 生态奠定基础——Gemma 4 + AICore + Android Skills = 完整的端侧 Agent 开发栈

关联¶

[[gemini-31-flash-lite]] — 同期发布的轻量级 Gemini 变体，云端推理优化
[[gemma-3-2b]] — Gemma 系列前代端侧模型
[[minicpm-242]] — 开源端侧模型的另一个选择
[[on-device-inference-memory-pressure]] — 端侧推理的内存管理挑战
[[android-agent-assistant]] — 基于 Android 的 Agent 系统
[[ggml-llamacpp-hf]] — Gemma 4 可通过 llama.cpp 在非 Android 设备上运行