type: concept tags: [NPU, LLM推理, 自适应调度, 内存优化, 边缘计算, 混合精度, Ascend] related: [[shield-hierarchical-memory-llm]], [[scaling-llm-npu-mobile]], [[llm-inference-edge-mobile-npu-gpu]], [[on-device-inference-memory-pressure]], [[edgeflow-cold-start]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.09752 title: "A-IO: Adaptive Inference Orchestration for Memory-Bound NPUs" date: 2026-04-15 reliability: high created: 2026-04-20 updated: 2026-04-20
A-IO: 面向内存受限 NPU 的自适应推理编排¶
通过 1B 前端探针进行意图感知,动态路由请求到最优模型(1B/7B),在 Ascend 910B NPU 上突破吞吐-精度帕累托前沿
核心问题¶
在异构 NPU 平台上部署 LLM(如 Ascend 910B)时,自回归解码阶段面临严重的内存受限挑战。研究揭示了"模型规模悖论"(Model Scaling Paradox):
- 静态部署单尺寸模型无法同时满足所有场景
- 1B 模型在标准 2K 上下文中表现良好(67.68% Human-eval),但扩展到 32K 上下文时性能停滞
- 7B 模型在 32K 上下文中精度飙升到 95.73%,但始终有较低的吞吐量(~17 TPS vs ~22 TPS)
- 细粒度投机解码(Speculative Decoding)在 NPU 计算图编译下有严重的内核同步开销
- 纯微层级加速算法(如 Prompt LookUp Decoding)有严重局限性
方法/架构¶
A-IO 是一个粗粒度、请求感知的自适应推理调度框架,核心设计:
1B 前端探针意图感知¶
- 使用超低开销的 1B 模型作为前端探针
- 对输入请求进行意图分类(Code / QA / Math)
- 分类精度达到 92.0% 整体准确率
动态路由¶
- 基于探针输出和上下文长度估计,将请求路由到最优模型
- 长上下文请求(>2K tokens)自动路由到 7B 骨干网络
- 短上下文简单请求路由到高吞吐的 1B 模型
自适应优化策略切换¶
- 在宏层级自适应切换硬件敏感的优化策略
- 智能流量隔离,大幅减少冗余权重取回开销
- 绕过高带宽内存(HBM)带宽墙
系统开销¶
- 端到端静态开销仅 ~15ms/请求:模板封装 2.5ms + 1B 单 token 预填充 11.8ms + 路由逻辑 0.7ms
- 上下文热切换开销仅 2.4ms
- 总开销 ~17.4ms(占 7B 生成延迟 1200ms 的 1.45%),可忽略
实验结果¶
测试平台¶
- Ascend 910B NPU + Open-Pangu 1B/7B 模型
- 5 个基准:C-eval、MMLU、GSM8K、Human-eval、QGPA
核心性能数据¶
| 配置 | C-eval Acc% | MMLU Acc% | GSM8K Acc% | Human-eval Acc% | 平均 TPS |
|---|---|---|---|---|---|
| 1B 基线 | 63.20 | 71.17 | 73.92 | 67.68 | ~21.5 |
| 7B 基线 | 78.89 | 90.21 | 83.02 | 62.80 | ~16.6 |
| 1B PLD | 64.40 | 65.29 | 62.09 | 51.22 | ~27.0 |
| 7B Quant | 78.66 | 69.47 | 72.02 | 55.38 | ~16.2 |
| A-IO | 79.35 | 88.10 | 82.15 | 67.10 | 19.80 |
关键发现: - A-IO 在 Scenario A 中同时将聚合精度提升至 70.85%、吞吐提升至 19.80 TPS - 在知识密集型工作负载上达到 76.50% 聚合精度 - 严格突破了吞吐-精度帕累托前沿——静态部署无法同时达到这两个数字 - 1B 探针 8% 误分类率仅导致 <1.5% 的精度退化(通过熵阈值 τ=0.45 控制)
消融实验¶
- 随机路由:精度 71-80%,TPS ~19,远不如 A-IO → 证明探针的价值
- 静态 PLD:破坏严格推理输出(Human-eval 从 67.68% 降到 51.22%)→ 证明细粒度优化的局限
- 静态量化:TPS 与基线几乎相同(实时反量化抵消了压缩收益)→ 证明粗粒度调度的价值
关键洞察¶
-
"粗粒度调度 > 细粒度优化":与其微调单模型的推理细节(PLD、量化),不如在请求级别做智能路由。A-IO 的 ~17ms 路由开销换来的是数倍的系统级收益。
-
探针-骨干架构的通用模式:1B 探针 + N 个骨干模型的架构可以推广到更多场景。探针不需要完美(92% 精度就够),只需足够好地将请求分流。
-
NPU 异构性的利用:不同模型(1B vs 7B)在 NPU 上的性能特征差异很大,自适应调度正是利用这种异构性而非试图消除它。
-
上下文长度是最强路由信号:简单的上下文长度估计就能区分大部分请求(2K vs 32K),无需复杂特征工程。
为什么重要¶
对于手机端 AIOS,A-IO 提供了一种实用的端侧 LLM 部署范式: - 端侧资源有限:手机 NPU 内存和算力不足以运行多个大模型,但可以同时驻留一个 1B 探针和一个 7B 骨干 - 用户体验需要自适应:简单问题秒回、复杂问题慢回,比所有请求都等一个大模型好得多 - 可扩展到更多场景:除了 Code/QA/Math,可以扩展到对话/搜索/创作等手机端常见任务
关联¶
- [[shield-hierarchical-memory-llm]] — SHIELD 优化 NPU 内存架构,A-IO 优化 NPU 计算调度,两者互补
- [[scaling-llm-npu-mobile]] — 移动端 NPU 上的 LLM 测试时计算扩展,同属 NPU 推理优化
- [[llm-inference-edge-mobile-npu-gpu]] — 边缘 LLM 推理硬件权衡,A-IO 提供调度层面的解决方案
- [[on-device-inference-memory-pressure]] — 端侧推理内存压力,A-IO 的路由机制间接缓解内存压力
- [[edgeflow-cold-start]] — EdgeFlow 优化冷启动,A-IO 优化在线路由,两者解决不同阶段的效率问题
- [[kv-cache-quantization-ondevice]] — KV-Cache 量化优化内存占用,A-IO 通过路由避免不必要的大模型缓存