跳转至

type: concept tags: [NPU, LLM, test-time-scaling, inference-optimization, Qualcomm, Snapdragon, edge-ai, on-device] related: [[edgedit]], [[minicpm-242]], [[on-device-inference-memory-pressure]] sources: - url: https://arxiv.org/abs/2509.23324 title: "Scaling LLM Test-Time Compute with Mobile NPU on Smartphones" date: 2025-09-27 reliability: high created: 2026-04-19 updated: 2026-04-19


移动端 NPU 上的 LLM 测试时计算扩展

利用手机 NPU 中闲置的矩阵乘法算力,通过并行测试时扩展技术提升小型 LLM 的推理性能

核心问题

在移动设备上部署 LLM 面临两难困境:较小的模型性能不足,较大的模型资源消耗过大。研究发现,移动 NPU(特别是 Qualcomm Hexagon 的 HMX 矩阵乘法单元)在典型的 LLM 推理过程中存在大量未被充分利用的计算资源——每次矩阵乘法只使用了 HMX 的一小部分算力。

方法/架构

提出利用 NPU 闲置算力进行并行测试时扩展(parallel test-time scaling)的技术:

  • HMX 算力利用:Hexagon NPU 包含 6-8 个标量 VLIW 硬件线程,向量运算由 HVX(Hexagon Vector eXtension)处理,矩阵运算由 HMX(Hexagon Matrix eXtension)处理。标准 LLM 推理仅使用了 HMX 的部分能力
  • 并行测试时扩展:在推理时生成多个候选回答并选择最佳结果,利用闲置的 HMX 算力并行执行
  • 混合精度 GEMM 优化:针对 Snapdragon 平台的 HMX 架构,实现了高效的混合精度矩阵乘法
  • Softmax 加速:针对注意力机制中的 Softmax 操作进行 NPU 专用优化

实验结果

  • 混合精度 GEMM:最高 19.0× 加速
  • Softmax 操作:最高 2.2× 加速
  • 在 Gemma、Llama3.2、MiniCPM 等模型上验证
  • 关键发现:使用测试时扩展的小型模型可以匹敌更大模型的性能,同时充分利用 NPU 闲置算力
  • 在 Qualcomm Snapdragon 平台上实现实际可用的推理速度

关键洞察

这篇论文揭示了一个被忽视的事实:移动 NPU 的算力远未被充分利用。传统的 LLM 推理流程(单次自回归生成)无法有效利用 HMX 的并行矩阵乘法能力。通过测试时扩展(多候选生成+选择),不仅提升了模型质量,还让 NPU 的算力"物尽其用"。

这对移动端 AI 部署的意义重大:不需要更大的模型,而是更聪明地利用现有硬件。

为什么重要

  • 降低端侧 AI 成本:小模型 + 测试时扩展 > 大模型,节省存储和功耗
  • 推动 NPU 生态成熟:现有 NPU SDK(QNN、Core ML)主要优化单模型推理,缺乏测试时扩展的支持
  • 对小米/华为/三星的启示:各自的 NPU 架构也存在类似的算力浪费问题,该方法可移植

关联

  • [[edgedit]] — 另一个移动端 NPU 优化工作
  • [[minicpm-242]] — 端侧小模型的代表
  • [[on-device-inference-memory-pressure]] — 端侧推理的资源管理
  • [[kv-cache-quantization-ondevice]] — 另一种端侧推理优化策略