type: concept tags: [on-device-finetuning, compiler, MCU, wearable, biosignal, backpropagation, optimization, edge-ai] related: [[lcsb-finetuning-ondevice]], [[edgeflow-cold-start]], [[sustainability-ondevice-intelligence]], [[ahc-mcu-continual-detection]], [[sense-less-infer-more]] sources: - url: https://arxiv.org/abs/2604.13359 title: "BioTrain: Sub-MB, Sub-50mW On-Device Fine-Tuning for Edge-AI on Biosignals" date: 2026-04-17 reliability: high created: 2026-04-16 updated: 2026-04-16
BioTrain: MCU 上的全网络反向传播训练框架¶
编译器辅助的端侧训练框架,在 50mW 功耗包络内实现 MCU 全网络反向传播,8× 峰值内存压缩,EEG 上最高提升 35% 准确率。
核心问题¶
可穿戴生物信号(EEG、EOG 等)存在严重的跨被试和跨会话分布漂移——电极-皮肤阻抗波动、出汗、传感器位移等因素导致云端训练的模型部署后性能急剧下降。传统解决方案要么仅做线性探针(LP,只更新最后一层),要么在 MCU 上根本无法运行全网络反向传播(BP)——GAP9 MCU 仅 1.5MB L2 内存,标准全微调需要 ~5.4MB 峰值激活内存,超出容量 3.6 倍。
关键矛盾:线性探针不足以应对大幅信号变化(文献 [4] 证实),但全 BP 的内存和计算需求远超穿戴设备的资源上限。
方法/架构¶
BioTrain 基于 Deeploy 编译器(专为 MCU 能效推理设计),将其扩展到训练工作负载:
三组件架构¶
- PULPTrainLib 集成:接入优化的 CNN 梯度内核,支持分块(tiling)计算
- 静态内存分配与分块:利用 Deeploy 的静态内存管理机制,将梯度计算分块到片上 L2 内存
- Mini-batch 网络拓扑修改:修改基线 CNN 架构以支持片上 mini-batch 处理
关键技术¶
- Edge-FT(边缘全微调):全网络 BP,但通过编译器级的内存分块将峰值激活压缩到 0.67MB
- 对比 Full-FT(标准全微调,需 5.4MB):8× 内存压缩
- 对比 LP(线性探针,0.19MB):训练参数从 0.07k 扩展到 7.9k
硬件平台¶
GAP9 MCU(GreenWaves Technologies): - 1.5MB L2 片上内存 - RISC-V 多核架构 - FP32 计算
实验结果¶
两个真实场景¶
| 场景 | 说明 |
|---|---|
| Day-1 新用户校准 | 新用户首次使用时的即时模型个性化 |
| 纵向自适应 | 长期使用中的持续信号漂移适应 |
定量结果(Table IV 完整数据)¶
| 数据集 | 策略 | 准确率 (Subj/Sess) | 参数量 | FLOPs | L2 峰值内存 (MB) | 延迟 (ms) | 功耗 (mW) | 吞吐量 (GFLOPs/s) |
|---|---|---|---|---|---|---|---|---|
| EEG | LP | 74.8% / 76.2% | 0.07k | 139.2M | 0.19 | 360.0 | 45.2 | 0.38 |
| EEG | Full-FT | 80.0% / 78.7% | 7.9k | 416.8M | 5.36 † | — | — | — |
| EEG | Edge-FT | 86.4% / 83.9% | 7.9k | 416.8M | 0.67 | 469.6 | 43.8 | 0.89 |
| EOG | LP | 83.3% / 86.5% | 0.2k | 7.2M | 0.11 | 34.4 | 50.4 | 0.21 |
| EOG | Full-FT | 88.7% / 89.1% | 4.1k | 20.8M | 2.24 † | — | — | — |
| EOG | Edge-FT | 87.7% / 87.2% | 4.1k | 20.8M | 0.28 | 93.6 | 48.2 | 0.22 |
† 超出 GAP9 L2 容量(1.5MB),无法完全在片上执行
核心数据¶
- EEG 准确率提升:Edge-FT 86.4% vs LP 74.8% → +11.6 个百分点(Day-1),比 Full-FT 还高 6.4pp
- EOG 准确率:Edge-FT 87.7% 接近 Full-FT 88.7%,但后者超出内存无法实际运行
- 功耗:EEG 43.8mW,EOG 48.2mW,均在 50mW 包络内
- 续航实测:320mAh 电池支持 ~211 次 EEG 或 ~951 次完整训练会话(每会话 40 epoch × 200 样本)
- 吞吐量:EEG 17 samples/s,EOG 85 samples/s
纵向自适应结果¶
Edge-FT 在纵向漂移场景下表现最稳定: - EEG:S₂ 开始稳定在 84.8%,S₄ 维持 85.8%(LP 在 S₂→S₄ 有明显下降) - EOG:87.2%,与 Full-FT(89.1%)可比 - 避免了 LP 和其他方法观察到的"自适应滞后"现象
关键洞察¶
-
编译器级优化 > 运行时技巧:BioTrain 的突破不在算法层面(仍用标准 BP),而在编译器层面——通过静态内存分块将 5.4MB 压缩到 0.67MB。这说明端侧训练的瓶颈更多是系统工程而非理论问题。
-
全网络 BP 在 MCU 上可行:传统观点认为 MCU 只能做 LP 或最后一层微调。BioTrain 证明在 1.5MB L2 的 GAP9 上,7.9k 参数的全网络 BP 完全可行,且性能显著优于 LP。
-
穿戴设备的训练续航被严重低估:211 次 EEG 训练会话意味着用户每天校准一次,可以持续 ~7 个月。这打开了"持续个性化"的产品可能性。
-
对手机端 AI 的启示:虽然 BioTrain 针对 MCU,但其编译器级内存分块思想可以迁移到手机端 NPU/ISP 上的端侧微调。手机有更大的内存(8-16GB)但功耗约束类似。
为什么重要¶
BioTrain 是端侧训练领域的一个里程碑——它证明了在最极端的硬件约束(MCU、1.5MB 内存、50mW 功耗)下,全网络反向传播不仅是理论可行的,而且是实际可用的(续航 7 个月)。这对手机端 AIOS 的意义在于:
- 端侧个性化不再需要云端:从 MCU 到手机,全栈端侧训练成为可能
- 编译器是端侧 AI 的核心竞争力:MNN、TFLite 等推理框架需要向训练扩展
- 生物信号 = 下一代手机输入:EEG/EOG 的端侧处理可能成为 AR/VR、健康监测的标准功能
关联¶
- [[lcsb-finetuning-ondevice]] — LCSB 也做端侧 LLM 微调,但针对手机端大模型,BioTrain 针对 MCU 小模型
- [[edgeflow-cold-start]] — EdgeFlow 优化端侧 LLM 冷启动,BioTrain 优化端侧训练冷启动(Day-1 校准)
- [[sustainability-ondevice-intelligence]] — BioTrain 的能效数据(43.8mW)直接支持可持续性分析
- [[ahc-mcu-continual-detection]] — AHC 也在 MCU 上做持续学习,但用的是压缩而非全 BP
- [[sense-less-infer-more]] — 同样关注边缘医疗 AI,但侧重推理而非训练