跳转至

📱 Mobile AIOS Wiki

端侧推理优化技术

YueLich/aios-wiki

端侧推理优化技术¶

概念页面 — 从多个相关页面的 wikilink 引用自动创建

端侧推理优化是在手机、IoT 设备等资源受限环境中高效运行 AI 模型的技术集合。

核心技术¶

模型量化: 将 FP32 权重压缩到 INT8/INT4，减少内存和计算量
模型剪枝: 移除不重要的神经元和连接
知识蒸馏: 用大模型教小模型，在保持精度的同时缩小模型
硬件特化: 针对 NPU/GPU/DSP 指令集优化算子

关键挑战¶

挑战	解决方案
内存不足	KV-Cache 量化、动态批处理
启动延迟	模型预热、EdgeFlow 冷启动优化
功耗限制	DVFS 动态调频、算子融合
多模型切换	模型路由、缓存策略

关联¶

[[septq-post-training-quantization]] — 后训练量化
[[kv-cache-quantization-ondevice]] — KV-Cache 量化
[[edgeflow-cold-start]] — 冷启动优化
[[on-device-inference-memory-pressure]] — 内存压力
[[dancemoe-distributed-moe-edge]] — 分布式 MoE