type: concept tags: [optimization, edge-ai, cnn, early-exit, pruning, quantization, onnx, iot] related: [[ondevice-streaming-asr]], [[edgeflow-cold-start]], [[kv-cache-quantization-ondevice]] sources: - url: https://arxiv.org/abs/2604.14789 title: "A Comparative Study of CNN Optimization Methods for Edge AI: Exploring the Role of Early Exits" date: 2026-04-16 reliability: high created: 2026-04-17 updated: 2026-04-17

CNN 边缘优化：静态压缩 vs 动态 Early-Exit 的统一比较¶

Ikerlan 研究中心在真实边缘硬件上统一比较静态压缩（剪枝/量化）和动态 Early-Exit 机制，揭示两者提供根本不同的部署权衡

核心问题¶

AIoT（AI + IoT）场景中，边缘节点的处理能力、内存、存储和能耗都受到严格限制。将推理卸载到云端违背了 AIoT 自主、低延迟的核心承诺。现有两种优化策略（静态压缩和动态 Early-Exit）很少在相同硬件条件下被直接比较。

方法：统一部署导向评估¶

两类优化策略¶

静态压缩（永久减小模型）： - 剪枝 (Pruning)：移除冗余权重/通道 - 量化 (Quantization)：降低权重精度（FP32 → INT8/INT4） - 特点：固定计算量，始终降低内存占用

动态 Early-Exit（运行时自适应）： - 在网络中间层添加分类器，简单样本提前退出 - 特点：计算量随输入难度变化，峰值内存不减

评估设置¶

使用 ONNX 推理管线
在真实边缘设备上测试（非仿真）
统一的评估指标：准确率、延迟、内存占用、能耗

实验结果¶

核心发现：静态和动态压缩技术为边缘部署提供了根本不同的权衡。

维度	静态压缩 (剪枝/量化)	动态 Early-Exit
内存占用	✅ 持续降低	❌ 峰值不减
计算量	固定减少	随输入自适应
准确率	有损（但可控）	简单样本无损
延迟	一致降低	取决于退出位置
适用场景	资源极度受限	输入难度多变

关键洞察¶

不是替代关系而是互补关系：静态压缩保证最坏情况下的资源约束，Early-Exit 优化平均情况下的效率
Early-Exit 的隐藏成本：中间分类器增加模型参数和峰值内存，在内存受限设备上可能是致命的
实际硬件 vs 理论分析：在真实边缘设备上的结果与理论分析存在显著差异，算子融合、内存对齐等工程因素影响巨大
ONNX 作为统一评估平台：ONNX Runtime 使得不同优化策略可在相同执行环境下公平比较

为什么重要¶

这项工作为边缘 AI 开发者提供了实证指导：选择优化策略时不能只看论文指标，必须考虑目标硬件的实际约束。对于手机端 AI 部署，这意味着： - 内存极度受限的场景（低端手机）→ 优先静态压缩 - 输入难度多变的场景（相机实时处理）→ Early-Exit 可能更有效 - 最佳方案通常是两者的组合

关联¶

[[ondevice-streaming-asr]] — ASR 部署中使用的量化策略属于本文的"静态压缩"类别
[[edgeflow-cold-start]] — 冷启动优化需要权衡模型大小与计算量
[[kv-cache-quantization-ondevice]] — KV-Cache 量化是 LLM 特有的压缩技术