type: concept tags: [NPU, LLM推理, 自适应调度, 内存优化, 边缘计算, 混合精度, Ascend] related: [[shield-hierarchical-memory-llm]], [[scaling-llm-npu-mobile]], [[llm-inference-edge-mobile-npu-gpu]], [[on-device-inference-memory-pressure]], [[edgeflow-cold-start]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.09752 title: "A-IO: Adaptive Inference Orchestration for Memory-Bound NPUs" date: 2026-04-15 reliability: high created: 2026-04-20 updated: 2026-04-20

A-IO: 面向内存受限 NPU 的自适应推理编排¶

通过 1B 前端探针进行意图感知，动态路由请求到最优模型（1B/7B），在 Ascend 910B NPU 上突破吞吐-精度帕累托前沿

核心问题¶

在异构 NPU 平台上部署 LLM（如 Ascend 910B）时，自回归解码阶段面临严重的内存受限挑战。研究揭示了"模型规模悖论"（Model Scaling Paradox）：

静态部署单尺寸模型无法同时满足所有场景
1B 模型在标准 2K 上下文中表现良好（67.68% Human-eval），但扩展到 32K 上下文时性能停滞
7B 模型在 32K 上下文中精度飙升到 95.73%，但始终有较低的吞吐量（~17 TPS vs ~22 TPS）
细粒度投机解码（Speculative Decoding）在 NPU 计算图编译下有严重的内核同步开销
纯微层级加速算法（如 Prompt LookUp Decoding）有严重局限性

方法/架构¶

A-IO 是一个粗粒度、请求感知的自适应推理调度框架，核心设计：

1B 前端探针意图感知¶

使用超低开销的 1B 模型作为前端探针
对输入请求进行意图分类（Code / QA / Math）
分类精度达到 92.0% 整体准确率

动态路由¶

基于探针输出和上下文长度估计，将请求路由到最优模型
长上下文请求（>2K tokens）自动路由到 7B 骨干网络
短上下文简单请求路由到高吞吐的 1B 模型

自适应优化策略切换¶

在宏层级自适应切换硬件敏感的优化策略
智能流量隔离，大幅减少冗余权重取回开销
绕过高带宽内存（HBM）带宽墙

系统开销¶

端到端静态开销仅 ~15ms/请求：模板封装 2.5ms + 1B 单 token 预填充 11.8ms + 路由逻辑 0.7ms
上下文热切换开销仅 2.4ms
总开销 ~17.4ms（占 7B 生成延迟 1200ms 的 1.45%），可忽略

实验结果¶

测试平台¶

Ascend 910B NPU + Open-Pangu 1B/7B 模型
5 个基准：C-eval、MMLU、GSM8K、Human-eval、QGPA

核心性能数据¶

配置	C-eval Acc%	MMLU Acc%	GSM8K Acc%	Human-eval Acc%	平均 TPS
1B 基线	63.20	71.17	73.92	67.68	~21.5
7B 基线	78.89	90.21	83.02	62.80	~16.6
1B PLD	64.40	65.29	62.09	51.22	~27.0
7B Quant	78.66	69.47	72.02	55.38	~16.2
A-IO	79.35	88.10	82.15	67.10	19.80

关键发现： - A-IO 在 Scenario A 中同时将聚合精度提升至 70.85%、吞吐提升至 19.80 TPS - 在知识密集型工作负载上达到 76.50% 聚合精度 - 严格突破了吞吐-精度帕累托前沿——静态部署无法同时达到这两个数字 - 1B 探针 8% 误分类率仅导致 <1.5% 的精度退化（通过熵阈值 τ=0.45 控制）

消融实验¶

随机路由：精度 71-80%，TPS ~19，远不如 A-IO → 证明探针的价值
静态 PLD：破坏严格推理输出（Human-eval 从 67.68% 降到 51.22%）→ 证明细粒度优化的局限
静态量化：TPS 与基线几乎相同（实时反量化抵消了压缩收益）→ 证明粗粒度调度的价值

关键洞察¶

"粗粒度调度 > 细粒度优化"：与其微调单模型的推理细节（PLD、量化），不如在请求级别做智能路由。A-IO 的 ~17ms 路由开销换来的是数倍的系统级收益。
探针-骨干架构的通用模式：1B 探针 + N 个骨干模型的架构可以推广到更多场景。探针不需要完美（92% 精度就够），只需足够好地将请求分流。
NPU 异构性的利用：不同模型（1B vs 7B）在 NPU 上的性能特征差异很大，自适应调度正是利用这种异构性而非试图消除它。
上下文长度是最强路由信号：简单的上下文长度估计就能区分大部分请求（2K vs 32K），无需复杂特征工程。

为什么重要¶

对于手机端 AIOS，A-IO 提供了一种实用的端侧 LLM 部署范式： - 端侧资源有限：手机 NPU 内存和算力不足以运行多个大模型，但可以同时驻留一个 1B 探针和一个 7B 骨干 - 用户体验需要自适应：简单问题秒回、复杂问题慢回，比所有请求都等一个大模型好得多 - 可扩展到更多场景：除了 Code/QA/Math，可以扩展到对话/搜索/创作等手机端常见任务

关联¶

[[shield-hierarchical-memory-llm]] — SHIELD 优化 NPU 内存架构，A-IO 优化 NPU 计算调度，两者互补
[[scaling-llm-npu-mobile]] — 移动端 NPU 上的 LLM 测试时计算扩展，同属 NPU 推理优化
[[llm-inference-edge-mobile-npu-gpu]] — 边缘 LLM 推理硬件权衡，A-IO 提供调度层面的解决方案
[[on-device-inference-memory-pressure]] — 端侧推理内存压力，A-IO 的路由机制间接缓解内存压力
[[edgeflow-cold-start]] — EdgeFlow 优化冷启动，A-IO 优化在线路由，两者解决不同阶段的效率问题
[[kv-cache-quantization-ondevice]] — KV-Cache 量化优化内存占用，A-IO 通过路由避免不必要的大模型缓存