type: entity tags: [multimodal, mobile, LMM, on-device, Snapdragon, inference, efficient-ai, edge-ai] related: [[gemma4-ondevice]], [[minicpm-242]], [[edgedit]] sources: - url: https://arxiv.org/abs/2405.12107 title: "Imp: Highly Capable Large Multimodal Models for Mobile Devices" date: 2024-05-20 reliability: high created: 2026-04-19 updated: 2026-04-19
Imp: 面向移动设备的高性能大型多模态模型¶
在手机端实现 13 tokens/s 推理速度的多模态大模型,性能超越同规模和 13B 级别竞品
核心问题¶
现有大型多模态模型(LMM)虽然在开放世界多模态理解方面表现出色,但通常参数量大、计算密集,在资源受限场景中难以应用。已有的轻量级 LMM(如 TinyLLaVA 系列)虽然将规模压缩到 3B 左右,但在能力上仍有显著差距。
方法/架构¶
Imp 提出了一套系统的移动端 LMM 优化方法:
- 模型架构:在不使用任何专有预训练模型或私有数据的情况下,通过精心的架构设计和训练策略,构建高效的多模态模型
- 视觉编码器优化:针对移动端推理特点优化视觉编码器,降低图像处理的计算开销
- 语言模型压缩:对 LLM backbone 进行结构化压缩,适配 Snapdragon NPU 的计算特性
- 端到端优化:使用 Qualcomm AI Runtime 进行模型编译和推理优化
实验结果¶
- Imp-3B 模型在 Qualcomm Snapdragon 8Gen3 上实现约 13 tokens/s 的推理速度
- 在广泛的 LMM 基准测试中,超越同规模的其他模型
- 在 13B 级别模型中也表现出竞争力,持续超越当时的 SOTA LMM
- 完全开源:代码和预训练模型公开可用
关键洞察¶
Imp 的核心价值在于证明了:端侧多模态模型不需要在能力上做根本妥协。通过架构创新和系统级优化,3B 参数的模型可以在手机上流畅运行多模态理解任务。这打破了"端侧=低能力"的固有认知。
特别值得注意的是,Imp 不依赖任何专有组件——这对于开源生态和社区发展具有重要意义。
为什么重要¶
- 端侧多模态成为现实:Imp 证明手机可以运行实用的多模态 AI(图像理解、视觉问答等)
- 对移动 AI 生态的影响:
- 小米 HyperAI、华为 HarmonyOS 等平台可参考 Imp 的架构设计
- 为手机厂商自研端侧多模态能力提供了技术路线参考
- 开源标杆:完全开源的 3B 端侧多模态模型,降低了相关研究的门槛
- 骁龙 8Gen3 充分利用:展示了在当前旗舰手机芯片上的实际推理能力
关联¶
- [[gemma4-ondevice]] — Google 的端侧多模态方案
- [[minicpm-242]] — 面壁智能的端侧小模型
- [[edgedit]] — 端侧图像生成方案
- [[coremltools-9]] — Apple 端侧推理优化工具链