type: concept tags: [NPU, LLM, test-time-scaling, inference-optimization, Qualcomm, Snapdragon, edge-ai, on-device] related: [[edgedit]], [[minicpm-242]], [[on-device-inference-memory-pressure]] sources: - url: https://arxiv.org/abs/2509.23324 title: "Scaling LLM Test-Time Compute with Mobile NPU on Smartphones" date: 2025-09-27 reliability: high created: 2026-04-19 updated: 2026-04-19
移动端 NPU 上的 LLM 测试时计算扩展¶
利用手机 NPU 中闲置的矩阵乘法算力,通过并行测试时扩展技术提升小型 LLM 的推理性能
核心问题¶
在移动设备上部署 LLM 面临两难困境:较小的模型性能不足,较大的模型资源消耗过大。研究发现,移动 NPU(特别是 Qualcomm Hexagon 的 HMX 矩阵乘法单元)在典型的 LLM 推理过程中存在大量未被充分利用的计算资源——每次矩阵乘法只使用了 HMX 的一小部分算力。
方法/架构¶
提出利用 NPU 闲置算力进行并行测试时扩展(parallel test-time scaling)的技术:
- HMX 算力利用:Hexagon NPU 包含 6-8 个标量 VLIW 硬件线程,向量运算由 HVX(Hexagon Vector eXtension)处理,矩阵运算由 HMX(Hexagon Matrix eXtension)处理。标准 LLM 推理仅使用了 HMX 的部分能力
- 并行测试时扩展:在推理时生成多个候选回答并选择最佳结果,利用闲置的 HMX 算力并行执行
- 混合精度 GEMM 优化:针对 Snapdragon 平台的 HMX 架构,实现了高效的混合精度矩阵乘法
- Softmax 加速:针对注意力机制中的 Softmax 操作进行 NPU 专用优化
实验结果¶
- 混合精度 GEMM:最高 19.0× 加速
- Softmax 操作:最高 2.2× 加速
- 在 Gemma、Llama3.2、MiniCPM 等模型上验证
- 关键发现:使用测试时扩展的小型模型可以匹敌更大模型的性能,同时充分利用 NPU 闲置算力
- 在 Qualcomm Snapdragon 平台上实现实际可用的推理速度
关键洞察¶
这篇论文揭示了一个被忽视的事实:移动 NPU 的算力远未被充分利用。传统的 LLM 推理流程(单次自回归生成)无法有效利用 HMX 的并行矩阵乘法能力。通过测试时扩展(多候选生成+选择),不仅提升了模型质量,还让 NPU 的算力"物尽其用"。
这对移动端 AI 部署的意义重大:不需要更大的模型,而是更聪明地利用现有硬件。
为什么重要¶
- 降低端侧 AI 成本:小模型 + 测试时扩展 > 大模型,节省存储和功耗
- 推动 NPU 生态成熟:现有 NPU SDK(QNN、Core ML)主要优化单模型推理,缺乏测试时扩展的支持
- 对小米/华为/三星的启示:各自的 NPU 架构也存在类似的算力浪费问题,该方法可移植
关联¶
- [[edgedit]] — 另一个移动端 NPU 优化工作
- [[minicpm-242]] — 端侧小模型的代表
- [[on-device-inference-memory-pressure]] — 端侧推理的资源管理
- [[kv-cache-quantization-ondevice]] — 另一种端侧推理优化策略