跳转至

端侧推理优化技术

概念页面 — 从多个相关页面的 wikilink 引用自动创建

端侧推理优化是在手机、IoT 设备等资源受限环境中高效运行 AI 模型的技术集合。

核心技术

  • 模型量化: 将 FP32 权重压缩到 INT8/INT4,减少内存和计算量
  • 模型剪枝: 移除不重要的神经元和连接
  • 知识蒸馏: 用大模型教小模型,在保持精度的同时缩小模型
  • 硬件特化: 针对 NPU/GPU/DSP 指令集优化算子

关键挑战

挑战 解决方案
内存不足 KV-Cache 量化、动态批处理
启动延迟 模型预热、EdgeFlow 冷启动优化
功耗限制 DVFS 动态调频、算子融合
多模型切换 模型路由、缓存策略

关联

  • [[septq-post-training-quantization]] — 后训练量化
  • [[kv-cache-quantization-ondevice]] — KV-Cache 量化
  • [[edgeflow-cold-start]] — 冷启动优化
  • [[on-device-inference-memory-pressure]] — 内存压力
  • [[dancemoe-distributed-moe-edge]] — 分布式 MoE