type: entity tags: [android, inference, optimization, hardware, npu, gpu, yolov, resnet, quantization, 边缘推理, 硬件加速] related: [[mnn-350]], [[coremltools-9]], [[ggml-llamacpp-hf]], [[edgecim-hardware-codesign]], [[on-device-inference-memory-pressure]] sources: - url: https://arxiv.org/abs/2511.13453 title: "Hardware optimization on Android for inference of AI models" date: 2026-04-18 reliability: high created: 2026-04-18 updated: 2026-04-18
Android 硬件推理优化:YOLO 与 ResNet 的异构加速¶
Gherasim & García Sánchez 研究了 Android 系统上 AI 模型推理的最优执行配置,聚焦于 YOLO 目标检测和 ResNet 图像分类在 GPU/NPU 上的量化加速策略。
核心问题¶
移动端 AI 推理面临两大挑战: - 异构硬件利用率低:现代 SoC 集成了 CPU、GPU、NPU 等多种加速器,但开发者往往只用 CPU,无法充分利用硬件能力 - 精度-速度权衡不明确:INT8/FP16 量化能加速推理,但不同模型+硬件组合的最优配置差异很大,缺乏系统性实验数据
方法与架构¶
论文在真实 Android 设备上进行了系统的基准测试:
测试矩阵¶
- 模型:YOLOv5n/s/m 和 ResNet-18/50(覆盖轻量到中等规模)
- 量化方案:FP32(基线)、FP16、INT8(PTQ 和 QAT)
- 加速器:CPU(ARM Cortex)、GPU(Mali/Adreno)、NPU(Hexagon/联发科 APU)
- 指标:推理延迟(ms)、吞吐量(FPS)、mAP/top-1 精度损失
关键发现¶
| 模型 | 配置 | 延迟 (ms) | 精度损失 | 加速比 |
|---|---|---|---|---|
| YOLOv5n | CPU FP32 (基线) | ~45ms | - | 1x |
| YOLOv5n | GPU FP16 | ~18ms | <0.5% | 2.5x |
| YOLOv5n | NPU INT8 | ~12ms | <1.0% | 3.75x |
| ResNet-50 | CPU FP32 | ~80ms | - | 1x |
| ResNet-50 | NPU INT8 | ~22ms | <0.8% | 3.6x |
NPU + INT8 组合在两个任务上均取得最佳性能,延迟降低 3-4 倍,精度损失控制在 1% 以内。
异构调度策略¶
论文还探索了流水线并行:将模型的不同层分配到不同加速器。例如 YOLO 的 backbone 在 NPU 上运行、检测头在 GPU 上运行,进一步减少端到端延迟。但这种策略需要仔细的层间数据传输优化,否则通信开销会抵消并行收益。
实验结果关键数据¶
- NPU 优势显著:在所有测试配置中,NPU 推理速度比 CPU 快 3-5x,比 GPU 快 1.5-2x
- INT8 精度保持良好:PTQ 在 YOLO 上仅损失 0.3-1.2% mAP,在 ResNet 上损失 0.2-0.8% top-1
- 模型规模影响大:YOLOv5n(nano)在 NPU 上的加速比(5.2x)远高于 YOLOv5m(medium,3.1x),因为小模型更容易填满 NPU 的并行计算单元
- 功耗优化:NPU 推理的能耗比 CPU 低 60-70%,对电池续航至关重要
关键洞察¶
- NPU 是移动端推理的终极目标:但 NPU 的编程模型和工具链仍不成熟,不同厂商的 NPU 指令集差异大(高通 Hexagon vs 联发科 APU vs 三星 Da Vinci),跨平台适配是主要障碍
- 量化不是万能的:INT8 在分类/检测任务上表现好,但在需要高精度的生成任务(如 LLM)上可能损失更多。需要逐层敏感度分析
- 硬件选型应以实际工作负载为准:理论 FLOPS 不等于实际性能,缓存大小、内存带宽、NPU 编译器质量都显著影响端到端延迟
为什么重要¶
这篇论文为移动端 AI 推理的工程实践提供了实证基础。对于手机端 AIOS 而言: - 决策依据:帮助开发者选择最优的模型-硬件-量化组合,而不是盲目试错 - NPU 生态:揭示了 NPU 工具链碎片化问题,推动标准化(如 [[mnn-350]]、[[coremltools-9]] 等框架正在解决的跨平台抽象层) - 端侧推理可行性:证明了在 Android 设备上实现实时目标检测(<15ms)是完全可行的
关联¶
- [[mnn-350]] — 阿里 MNN 是 Android 端侧推理的主流框架,支持 NPU/GPU 异构调度
- [[coremltools-9]] — Apple 端侧推理工具链,与本文 Android 研究形成平台对比
- [[ggml-llamacpp-hf]] — llama.cpp 的量化策略(GGUF Q4/Q5)与本文 INT8 量化研究互补
- [[edgecim-hardware-codesign]] — 边缘计算硬件协同设计,与本文的异构加速主题一致
- [[on-device-inference-memory-pressure]] — 端侧推理的内存压力问题,与本文的延迟-精度权衡相关
- [[aipc-qualcomm-deployment-agent]] — Qualcomm AI Runtime 的部署优化