type: entity tags: [端侧模型, Meta, LLM, 1B参数, on-device, quantization-aware, long-context] related: [[mobilefinetuner]], [[gemma4-ondevice]], [[llama32]], [[minicpm-242]] sources: - url: https://arxiv.org/abs/2511.06719 title: "MobileLLM-Pro Technical Report" date: 2025-11-10 reliability: high - url: https://huggingface.co/collections/facebook/mobilellm-pro title: "MobileLLM-Pro Weights & Code" date: 2025-11-10 reliability: high created: 2026-04-20 updated: 2026-04-20

MobileLLM-Pro¶

Meta Reality Labs 推出的 10 亿参数端侧语言模型，11项基准全面领先 Gemma 3-1B 和 Llama 3.2-1B。

核心问题¶

在 sub-2B 参数级别实现强性能 + 长上下文 + 量化鲁棒性，是端侧 AI 的核心挑战。 Meta 需要一个能在手机、笔记本、穿戴设备上高效运行的紧凑模型。

方法/架构¶

四项核心创新：

隐式位置蒸馏（Implicit Positional Distillation）：通过知识蒸馏将长上下文能力注入小模型，支持 128K token 上下文窗口
专家模型合并框架（Specialist Model Merging）：将多个领域专家融合为紧凑模型，不增加参数量
模拟驱动数据混合（Simulation-Driven Data Mixing）：基于效用估计的数据配比优化
4-bit 量化感知训练 + 自蒸馏（QAT + Self-Distillation）：训练时即考虑量化，4-bit 量化后性能几乎无损

实验结果¶

11 项标准基准 SOTA，显著超越 Gemma 3-1B 和 Llama 3.2-1B
支持 128K token 上下文（长上下文场景：文档理解、长对话）
4-bit 量化 后仅有轻微性能退化（适合 INT4 部署）
模型权重和代码已在 HuggingFace 开源

关键洞察¶

MobileLLM-Pro 代表了"小而精"路线的最新成果。隐式位置蒸馏是关键突破——直接训练长上下文对1B模型太难，但蒸馏让它变得可行。量化感知训练（QAT）确保了模型在真实部署场景（INT4）下的可用性。专家合并避免了 MoE 的高内存开销，用合并达到类似效果。

为什么重要¶

Meta 的端侧战略：继 MobileLLM 初版后的重要迭代，Meta 将端侧视为核心赛道
128K 上下文：1B 模型支持 128K 是前所未有的，解锁长文档、长对话场景
量化友好：4-bit 几乎无损 = 实际手机部署可行
开源：权重+代码开源，加速社区端侧 AI 生态

关联¶

[[mobilefinetuner]] — MobileFineTuner 可在手机上微调 MobileLLM-Pro
[[gemma4-ondevice]] — Google 的端侧模型竞争者
[[llama32]] — Meta 的另一端侧模型线
[[minicpm-242]] — 面壁智能的端侧模型，同赛道竞争
[[quantization-techniques]] — QAT 是量化的一种高级形式