type: concept tags: [knowledge-distillation, model-optimization, visual-learning, training-acceleration, edge-ai] related: [[on-device-inference-memory-pressure]], [[kv-cache-quantization-ondevice]], [[agentopt-client-side-optimization]] sources: - url: https://arxiv.org/abs/2604.15451 title: "Weak-to-Strong Knowledge Distillation Accelerates Visual Learning" date: 2026-04-16 reliability: high created: 2026-04-20 updated: 2026-04-20

Weak-to-Strong Knowledge Distillation Accelerates Visual Learning¶

提出弱→强知识蒸馏范式：用较弱的教师模型加速强学生的训练。COCO 目标检测加速 1.67x，CIFAR-10 图像生成加速 2.67x，且学生最终精度反而更高。

核心问题¶

大规模视觉学习的训练成本日益增长。传统知识蒸馏（Knowledge Distillation）遵循"强教师→弱学生"范式，目标是压缩模型或提升最终精度。

但现代视觉模型开发通常是迭代的：新的强模型往往从先前的 checkpoint 构建（如 DINOv2 → EVA-02 → SigLIP → Florence-2）。这意味着存在大量"较弱但有价值的"已训练模型。

核心问题：能否复用这些已有的弱模型来加速强模型的训练？

方法/架构¶

弱→强蒸馏配方（Weak-to-Strong KD）¶

提出一个即插即用（plug-and-play）的通用训练加速配方：

冻结弱教师：不修改已有弱模型，仅用其输出作为辅助监督信号
选择性蒸馏：仅在训练的早期阶段施加蒸馏损失，帮助强学生快速建立良好表征
渐进退出：随着训练推进，逐步降低蒸馏权重，让强学生自主超越教师

关键设计¶

教师-学生可以是不同架构（如 RetinaNet-R34 → RetinaNet-R50）
适用于检测、生成等多种视觉任务
不需要教师的中间层特征，只需最终输出——降低实现复杂度

实验结果¶

目标检测（COCO 数据集）¶

学生	教师	目标指标	首次达标 epoch	加速比	最佳精度（基准/ours）
RetinaNet-R50	RetinaNet-R34	AP50 20.0%	10ep → 6ep	1.67x	22.55 / 30.67
Faster R-CNN-R50	Faster R-CNN-R18	AP50 20.0%	4ep → 3ep	1.33x	35.97 / 36.72

图像生成（CIFAR-10）¶

学生	教师	目标 FID	首次达标	加速比	最佳 FID↓
nc128-rb3	nc64-rb2	60	16k → 6k	2.67x	52.27 / 47.22
nc160-rb3	nc64-rb2	60	18k → 12k	1.50x	53.49 / 47.67

关键发现：弱→强蒸馏不仅加速训练，学生模型的最终精度（30.67 vs 22.55 AP50）反而显著高于不使用蒸馏的基准。

关键洞察¶

反直觉的有效性：用更弱的模型指导更强的模型，为什么有效？弱教师提供了有价值的"中间表征信号"——即使最终精度低，其学习到的早期特征图对强学生仍有指导意义
对端侧训练的启示：移动设备上的微调（fine-tuning）受限于计算资源。弱→强蒸馏可以通过复用已有的轻量模型来加速端侧训练，减少 epoch 数即减少功耗和时间
可作为通用训练加速器：该方法不限于视觉——理论上可以迁移到语音、NLP 等领域的端侧微调场景

为什么重要¶

端侧微调加速：手机上微调个性化模型（如相机场景识别、健康数据理解）时，每个 epoch 的成本都至关重要。1.3x-2.7x 的加速直接降低功耗和等待时间
模型生态价值：大量已训练但"较弱"的端侧模型（如旧版 Gemini Nano、Gemma 2B）可以成为加速新版模型训练的资产，而非废弃资源
与量化/剪枝互补：弱→强蒸馏解决的是训练端的效率，与推理端的量化技术（如 [[kv-cache-quantization-ondevice]]）形成端到端的优化链

关联¶

[[kv-cache-quantization-ondevice]] — 训练加速 + 推理量化形成端到端优化
[[on-device-inference-memory-pressure]] — 加速训练减少端侧内存占用时间
[[agentopt-client-side-optimization]] — 客户端优化可结合蒸馏加速
[[gemma4-ondevice]] — Gemma 系列端侧模型可受益于弱→强蒸馏
[[biotrain-ondevice-finetuning]] — BioTrain 的端侧微调可借鉴此加速方法