type: entity tags: [multimodal, mobile, LMM, on-device, Snapdragon, inference, efficient-ai, edge-ai] related: [[gemma4-ondevice]], [[minicpm-242]], [[edgedit]] sources: - url: https://arxiv.org/abs/2405.12107 title: "Imp: Highly Capable Large Multimodal Models for Mobile Devices" date: 2024-05-20 reliability: high created: 2026-04-19 updated: 2026-04-19

Imp: 面向移动设备的高性能大型多模态模型¶

在手机端实现 13 tokens/s 推理速度的多模态大模型，性能超越同规模和 13B 级别竞品

核心问题¶

现有大型多模态模型（LMM）虽然在开放世界多模态理解方面表现出色，但通常参数量大、计算密集，在资源受限场景中难以应用。已有的轻量级 LMM（如 TinyLLaVA 系列）虽然将规模压缩到 3B 左右，但在能力上仍有显著差距。

方法/架构¶

Imp 提出了一套系统的移动端 LMM 优化方法：

模型架构：在不使用任何专有预训练模型或私有数据的情况下，通过精心的架构设计和训练策略，构建高效的多模态模型
视觉编码器优化：针对移动端推理特点优化视觉编码器，降低图像处理的计算开销
语言模型压缩：对 LLM backbone 进行结构化压缩，适配 Snapdragon NPU 的计算特性
端到端优化：使用 Qualcomm AI Runtime 进行模型编译和推理优化

实验结果¶

Imp-3B 模型在 Qualcomm Snapdragon 8Gen3 上实现约 13 tokens/s 的推理速度
在广泛的 LMM 基准测试中，超越同规模的其他模型
在 13B 级别模型中也表现出竞争力，持续超越当时的 SOTA LMM
完全开源：代码和预训练模型公开可用

关键洞察¶

Imp 的核心价值在于证明了：端侧多模态模型不需要在能力上做根本妥协。通过架构创新和系统级优化，3B 参数的模型可以在手机上流畅运行多模态理解任务。这打破了"端侧=低能力"的固有认知。

特别值得注意的是，Imp 不依赖任何专有组件——这对于开源生态和社区发展具有重要意义。

为什么重要¶

端侧多模态成为现实：Imp 证明手机可以运行实用的多模态 AI（图像理解、视觉问答等）
对移动 AI 生态的影响：
小米 HyperAI、华为 HarmonyOS 等平台可参考 Imp 的架构设计
为手机厂商自研端侧多模态能力提供了技术路线参考
开源标杆：完全开源的 3B 端侧多模态模型，降低了相关研究的门槛
骁龙 8Gen3 充分利用：展示了在当前旗舰手机芯片上的实际推理能力

关联¶

[[gemma4-ondevice]] — Google 的端侧多模态方案
[[minicpm-242]] — 面壁智能的端侧小模型
[[edgedit]] — 端侧图像生成方案
[[coremltools-9]] — Apple 端侧推理优化工具链