跳转至

type: concept tags: [few-shot-learning, clip, continual-learning, prototype-calibration, edge-vision, on-device-adaptation, cross-domain] related: [[ada-vfm-edge-intelligence]], [[edge-cim-hardware-codesign]] sources: - url: https://arxiv.org/abs/2604.15678 title: "HyCal: A Training-Free Prototype Calibration Method for Cross-Discipline Few-Shot Class-Incremental Learning" date: 2026-04-17 reliability: high created: 2026-04-20 updated: 2026-04-20


HyCal: 无需训练的跨学科少样本原型校准

针对 CLIP 等预训练视觉语言模型在跨域少样本持续学习中的原型偏移问题,提出零训练的双层原型校准方法。

核心问题

预训练 VLM(如 CLIP)在持续学习场景中面临 领域引力(Domain Gravity) 问题:不同领域的样本量和类别数差异导致嵌入空间中某些领域主导原型位置,造成原型漂移(prototype drift)。

标准 CIL(Class-Incremental Learning)假设数据充足且平衡;Few-Shot CIL 放宽到固定 shot 数。但现实场景更复杂: - 不同领域的类别数和样本量不均匀 - 顺序到达的任务来自不同领域 - 历史领域原型受新领域影响而偏移

这对手机端部署至关重要:手机摄像头采集的数据天然具有跨域特性(室内/室外、人/物/场景),且用户提供的少量标注数据分布不均匀。

方法/架构

提出 XD-VSCIL(Cross-Discipline Variable Few-Shot Class-Incremental Learning)基准和 HyCal 方法:

XD-VSCIL 基准

捕获真实世界异质性和不均衡,领域引力自然加剧的持续学习设置。

HyCal 双层校准

  1. 领域内原型对齐(Intra-domain Prototype Alignment)
  2. 利用 CLIP 的类名语义信息校准同类原型
  3. 无需任何训练参数

  4. 跨域校准(Cross-domain Calibration)

  5. 利用校准后的软标签进行跨域原型修正
  6. 修正历史领域的原型漂移

整个方法是 训练无关(training-free) 的——不更新任何模型参数,仅在校准阶段进行计算。

实验结果/关键数据

设置 方法 Last Acc. Gap (Δ↓)
医学(11类) Zero-shot 22.4%
医学(11类) General Few-Shot (10-Shot)
纹理(47类) Zero-shot 44.3%

(注:论文包含完整对比实验,上述为部分数据点。HyCal 在多个数据集上持续优于现有 few-shot baseline。)

关键洞察

1. 训练无关对端侧部署至关重要

手机端无法承受微调的计算和存储开销。HyCal 的训练无关特性使其天然适合端侧部署——只需在校准时进行前向推理计算。

2. 领域引力是端侧持续学习的隐性瓶颈

手机用户提供的标注数据天然不均匀(可能大量拍食物照片,少量拍植物)。传统方法在这种偏态分布下严重退化,HyCal 的领域感知校准直接解决此问题。

3. CLIP 语义先验是免费的校准信号

利用 CLIP 的类名文本嵌入来校准视觉原型,无需额外标注。在手机端,用户只需提供类名(如"咖啡杯"),CLIP 的文本编码器自动提供校准信号。

4. 零样本到少样本的平滑过渡

HyCal 在零样本和少样本之间实现平滑过渡——即使用户只提供极少量标注,校准效果依然显著。

为什么重要

手机端 AIOS 的视觉场景理解需要持续适应: - 相机 App 新功能:用户教手机识别新的物体/场景 - 个人化识别:识别用户的宠物、物品、人脸 - 跨场景泛化:室内学到的模型在室外工作

HyCal 的训练无关、跨域校准方法为这些场景提供了轻量级解决方案,避免了端侧微调的高昂成本。

关联

  • [[ada-vfm-edge-intelligence]] — 自适应视觉基础模型在边缘设备的部署
  • [[edge-cim-hardware-codesign]] — 边缘 CIM 硬件对 CLIP 推理的加速
  • [[clawmobile-agentic]] — ClawMobile Agent 中的视觉感知模块
  • [[agentic-ai-cpu-execution]] — 原型校准的 CPU 开销分析