type: entity tags: [模型, MoE, 端侧推理, agentic-coding, 阿里, 开源模型] related: [[gemma4-ondevice]], [[llamacpp]], [[minicpm-242]], [[qwen36-35b-a3b]] sources: - url: https://the-decoder.com/alibabas-open-model-qwen3-6-leads-googles-gemma-4-across-agentic-coding-benchmarks/ title: "Alibaba's open model Qwen3.6 leads Google's Gemma 4 across agentic coding benchmarks" date: 2026-04-17 reliability: high - url: https://huggingface.co/Qwen/Qwen3.6-35B-A3B title: "Qwen3.6-35B-A3B on HuggingFace" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17

Qwen3.6-35B-A3B¶

阿里发布新一代开源 MoE 模型 Qwen3.6-35B-A3B，仅激活 35B 参数中的 3B，在 agentic coding 基准上全面超越 Gemma 4

核心问题¶

开源模型在端侧部署面临质量-效率权衡：大模型能力强但推理成本高，小模型效率高但能力不足。Qwen3.6 采用 MoE 架构试图两全——35B 总参数保证容量，每次仅激活 3B 以控制推理成本。

方法/架构¶

模型架构¶

总参数: 35B（350 亿）
激活参数: 3B（每次推理仅激活 35B 中的 3B）
架构: Mixture-of-Experts (MoE)
模式: 支持 thinking（深度推理）和 non-thinking（快速响应）双模式
多模态: 支持图像和视频理解任务

部署方式¶

Qwen Studio: 在线体验平台
API: 阿里云 Model Studio 提供 Qwen3.6 Flash API
开源权重: HuggingFace 和 ModelScope 可下载
量化友好: 3B 激活参数量适合 4-bit 量化后在手机端运行

实验结果¶

与 Gemma 4-31B 对比（核心基准）¶

基准	Qwen3.6-35B-A3B	Gemma 4-31B	差距
SWE-bench Verified	73.4	52.0	+21.4
Terminal-Bench 2.0	51.5	42.9	+8.6
GPQA（推理）	86.0	84.3	+1.7
AIME26（数学）	92.7	89.2	+3.5

与前代 Qwen3.5 对比¶

在 agentic coding 任务上"显著超越"前代 Qwen3.5-35B-A3B
Alibaba 声称在图像和视频任务上可与 Claude Sonnet 4.5 匹敌

关键洞察¶

为什么 MoE 对端侧重要¶

MoE 架构的激活参数量远小于总参数量，这意味着： 1. 内存效率: 推理时只需加载活跃专家的权重，不是全部 35B 2. 计算效率: 3B 激活参数量意味着推理 FLOPs 接近 3B 密集模型 3. 量化空间: 3B 激活参数 4-bit 量化后仅需 ~1.5GB，手机可行

Agentic Coding 的端侧意义¶

SWE-bench 和 Terminal-Bench 测试的是 Agent 在代码仓库中自主完成任务的能力。Qwen3.6 在这些基准上的大幅领先（+21.4 SWE-bench）表明： - 更强的代码理解和修改能力 → 端侧编程助手更实用 - 更好的多步骤推理 → Agent 任务分解更可靠 - 这对 Android Studio Agent Mode、GitHub Copilot 等端侧编码工具是重大利好

MoE 路由的端侧挑战¶

专家路由需要额外的内存带宽（加载不同专家权重）
手机端 DRAM 带宽有限，频繁切换专家可能导致延迟抖动
需要智能缓存策略：预加载高频专家，LRU 淘汰低频专家

为什么重要¶

Qwen3.6-35B-A3B 证明了 MoE 架构在端侧部署的可行性——用 3B 的计算成本获得接近 35B 的能力。这对移动 AIOS 的 Agent 系统至关重要：更强的模型意味着更可靠的 Agent 行为，而 MoE 的效率特性让端侧部署成为可能。与 Gemma 4 的竞争也推动了整个开源端侧模型生态的进步。

关联¶

[[gemma4-ondevice]] — Qwen3.6 的主要竞争对手，Google 的端侧开源模型
[[minicpm-242]] — 另一个端侧高效模型，Qwen3.6 的 MoE 路线不同
[[llamacpp]] — llama.cpp 是运行 Qwen3.6 的主要推理引擎之一
[[mnn-350]] — 阿里自研的推理框架 MNN，可能优先适配 Qwen3.6