type: concept tags: [on-device-learning, mcu, monocular-depth, ultra-low-power, iot, continual-learning] related: [[biotrain-ondevice-finetuning-mcu]], [[ahc-mcu-continual-detection]], [[visionclaw-wearable-agent]] sources: - url: https://arxiv.org/abs/2512.00086 title: "Multi-modal On-Device Learning for Monocular Depth Estimation on Ultra-low-power MCUs" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19
多模态端侧学习:超低功耗 MCU 上的单目深度估计¶
在 RISC-V MCU(<100mW)上实现多模态端侧学习,让微型 IoT 设备具备空间感知能力
核心问题¶
新一代微型空间感知 IoT 设备(掌上纳米无人机、MR 眼镜、智能摄像头)正在快速发展。这些设备搭载超低功耗(ULP)处理器,需要实时运行 AI 算法分析传感器数据。
单目深度估计(MDE)是关键任务——用单个廉价摄像头传感器提取场景深度信息。但传统方案面临两难: - 云端推理:延迟高、隐私风险、需持续网络连接——不适合微型无人机等离线场景 - 预训练静态模型:无法适应新环境(光照变化、新场景),在 MCU 上精度受限
方法/架构¶
论文提出在 ULP MCU 上实现多模态端侧学习的方法:
- 多模态输入融合:结合视觉(摄像头)和其他传感器信号(如 IMU、距离传感器),在 MCU 上进行融合
- 端侧微调:利用设备在部署环境中收集的数据,对预训练模型进行在线微调
- 轻量化架构:针对 MCU 的内存和计算约束设计专用网络结构
- 能量感知调度:根据设备能量状态动态调整推理/学习的计算量
关键洞察¶
-
端侧学习 vs 端侧推理的区别:端侧推理只是在设备上运行固定模型;端侧学习允许模型适应新环境。在 ULP MCU 上实现端侧学习是一个重大突破,因为 MCU 的计算资源极其有限。
-
多模态是关键:单目摄像头的深度估计固有歧义,多模态融合(如 IMU 提供的运动信息)可以显著提升精度,且额外传感器的功耗增加很小。
-
持续适应的价值:IoT 设备通常长期部署在变化环境中(如无人机从室内飞到室外)。端侧学习让模型持续适应,而非依赖一次性预训练。
为什么重要¶
- IoT 设备的"眼睛":深度估计是空间感知的基础,让 IoT 设备从"被动感知"升级为"主动理解"
- 超低功耗约束的突破:在 <100mW 的 MCU 上实现端侧学习,为更多端侧学习应用开辟道路
- 隐私保护:数据不出设备,在医疗、家庭监控等隐私敏感场景中至关重要
- 与手机端 AIOS 的关联:手机的传感器阵列(摄像头 + IMU + ToF)远强于 MCU,论文的方法论可以迁移到手机端,实现更高效的端侧空间理解
关联¶
- [[biotrain-ondevice-finetuning-mcu]] — 同样在 MCU 上实现端侧微调,但目标是生物信号而非视觉
- [[ahc-mcu-continual-detection]] — MCU 上的持续学习异常检测,与端侧学习理念一致
- [[visionclaw-wearable-agent]] — 可穿戴设备上的视觉 Agent,深度估计是其感知基础
- [[edgeflow-cold-start]] — 端侧模型冷启动优化,与端侧学习的模型初始化相关