type: entity tags: [端侧推理, Gemma, Google, MoE, 多模态, Apache 2.0, 移动端部署, agentic] related: [[huoziime-ondevice-ime]], [[gemini-nano-chrome137]], [[mnn-350]], [[llamacpp-b8791]] sources: - url: https://deepmind.google/blog/gemma-4-byte-for-byte-the-most-capable-open-models/ title: "Gemma 4: Byte for byte, the most capable open models" date: 2026-04-02 reliability: high created: 2026-04-17 updated: 2026-04-17
Gemma 4 — 端侧最智能的开源模型家族¶
Google DeepMind 发布 Gemma 4,包含 E2B/E4B(端侧)和 26B MoE/31B Dense(桌面)四个规格,Apache 2.0 许可。端侧模型激活有效 2B/4B 参数,完全离线运行。
核心问题¶
开源模型生态在端侧存在一个根本矛盾:高能力模型(Llama 70B+、Qwen 72B)无法在手机/嵌入式设备上运行,而能在端侧运行的小模型又能力不足。Gemma 4 试图通过极致的 intelligence-per-parameter 设计解决这个矛盾。
方法/架构¶
四规格模型家族¶
| 模型 | 参数量 | 架构 | 目标硬件 | 上下文窗口 |
|---|---|---|---|---|
| E2B | 激活 2B | MoE | 手机、Raspberry Pi、Jetson Orin Nano | 128K |
| E4B | 激活 4B | MoE | 手机、平板、IoT | 128K |
| 26B MoE | 激活 3.8B | MoE | 消费级 GPU(单卡) | 256K |
| 31B Dense | 31B | Dense | H100 / 高端 GPU | 256K |
端侧能力矩阵(E2B/E4B)¶
- 原生多模态:图像 + 视频 + 音频(E2B/E4B 特有音频输入)
- Agentic 工作流:原生函数调用、结构化 JSON 输出、系统指令
- 代码生成:离线高质量代码,将工作站变为本地 AI 编程助手
- 140+ 语言:原生多语言训练
- 完全离线:与 Qualcomm 和 MediaTek 合作,近零延迟跨边缘设备运行
- AICore 开发者预览:Android 开发者可立即原型化 Agentic 流程,前向兼容 Gemini Nano 4
Arena AI 排名(2026-04-01)¶
- 31B Dense:开源模型全球 #3
- 26B MoE:开源模型全球 #6
- 26B MoE 击败了 20x 大小的模型
生态集成¶
- 端侧推理:Google AI Edge Gallery(E4B/E2B)、LiteRT-LM、llama.cpp、MLX、Ollama
- 桌面推理:vLLM、SGLang、NVIDIA NIM
- 微调:Hugging Face TRL、Unsloth、Google Colab、Vertex AI
- 移动端:ML Kit GenAI Prompt API、Android Studio Agent Mode
- 协议:Apache 2.0(商业友好)
关键洞察¶
- Intelligence-per-parameter 是端侧模型的核心指标:Gemma 4 不追求参数规模,而是追求每参数的能力密度——这对端侧部署至关重要
- MoE 架构是端侧推理的正确选择:26B MoE 只激活 3.8B 参数,兼顾能力与效率
- 原生多模态 + 原生 Agent:不是在文本模型上附加视觉/音频模块,而是原生支持——这对端侧 Agent(需要理解屏幕、语音指令)非常关键
- AICore + Gemini Nano 4 前向兼容:Google 在用 Gemma 4 验证端侧 Agent 架构,为 Gemini Nano 4 做技术铺垫
- Apache 2.0 的战略意义:上一代 Gemma 使用受限许可,此次改为 Apache 2.0 是对 Llama 系列开源策略的直接回应
为什么重要¶
- 端侧模型能力的新标杆:E2B/E4B 将"手机能跑的模型"的能力上限大幅提升
- 原生 Agent 能力进入端侧:函数调用 + 结构化输出 + 系统指令 = 端侧 Agent 的基础能力
- 多模态端侧化:图像 + 音频的原生支持为端侧多模态 Agent 打开新可能
- 与 Qualcomm/MediaTek 深度合作:标志着硬件厂商对端侧 AI 的重视程度进一步提升
- Gemini Nano 4 的技术预演:Gemma 4 E2B/E4B 很可能是 Gemini Nano 4 的技术基础
关联¶
- [[huoziime-ondevice-ime]] — HUOZIIME 使用 Qwen3-0.6B,Gemma 4 E2B 是潜在替代方案
- [[gemini-nano-chrome137]] — Gemini Nano 是 Google 的端侧推理方案,Gemma 4 可能是其开源版本
- [[mnn-350]] — MNN 是阿里端侧推理引擎,可用于部署 Gemma 4
- [[llamacpp-b8791]] — llama.cpp 已支持 Gemma 4 推理
- [[edgeflow-cold-start]] — Gemma 4 的冷启动优化是端侧部署的关键环节