type: concept tags: [具身AI, 穿戴设备, 数据收集, 视频采集, 隐私保护] related: [[mobile-aios-overview]], [[secagent-mobile-gui]] sources: - url: https://arxiv.org/abs/2602.23893 title: "AoE: Always-on Egocentric Human Video Collection for Embodied AI" date: 2026-04-19 reliability: high created: 2026-04-19 updated: 2026-04-19
AoE: 面向具身 AI 的持续第一人称视频收集系统¶
利用分布式"人类 Agent"实现低成本、可持续的第一人称交互数据采集——解决具身 AI 训练数据稀缺问题
核心问题¶
具身基础模型需要大规模、高质量的真实世界交互数据进行预训练和扩展。但现有数据收集方法面临三重挑战: 1. 基础设施成本高:专用采集环境(如实验室、机器人平台)造价昂贵 2. 硬件依赖复杂:专业采集设备难以大规模部署 3. 交互范围有限:受控环境无法覆盖真实世界的多样性
核心洞察:人类本身就是理想的物理具身 Agent——灵活、低成本、可持续。
方法/架构¶
提出 AoE (Always-on Egocentric) 数据收集系统:
系统设计¶
- 穿戴式设备:轻量级摄像头 + 边缘计算模块,实现"始终开启"的第一人称视频采集
- 分布式部署:全球分布的"人类 Agent"在自然环境中采集日常交互数据
- 智能触发:不是盲目录制所有内容,而是通过边缘推理识别有意义的交互事件后触发采集
关键技术挑战¶
- 功耗约束:始终开启的视频采集对穿戴设备的电池寿命提出严苛要求
- 隐私保护:持续录制涉及他人隐私,需要实时隐私过滤
- 带宽优化:原始视频数据量巨大,需要边缘端压缩和筛选
解决方案¶
- 分层功耗管理:低功耗传感器(IMU)触发高功耗摄像头
- 实时人脸模糊和隐私过滤(边缘端执行)
- 选择性上传:只上传通过质量筛选的视频片段
实验结果¶
- 在多个真实场景中验证了系统的可行性
- 相比专业采集设备,成本降低 90%+
- 数据多样性显著提升(覆盖家庭、办公、户外等多种场景)
- 隐私过滤准确率达到 99.2%
关键洞察¶
"人类即 Agent"的数据范式:传统思路是造更好的机器人来收集数据,AoE 的思路是利用人类作为具身 Agent——人类的灵活性、适应性和常识是任何机器人无法比拟的。这对手机端 AIOS 的启示是:手机本身就是最好的"人类 Agent 载体"。
边缘计算是使能技术:没有边缘端的实时隐私过滤和智能触发,穿戴式持续采集是不可能的。AoE 的系统架构展示了边缘 AI 在实际应用中的不可替代性。
为什么重要¶
- 手机是最佳具身数据采集平台:手机摄像头 + IMU + GPS 已经具备 AoE 系统的核心能力
- 为端侧具身 AI 提供数据基础:未来手机 AI 不仅理解屏幕内容,还能理解用户所处的物理环境
- 隐私保护的边缘推理展示了端侧 AI 的独特价值——云端方案无法满足实时隐私过滤的低延迟要求
关联¶
- [[mobile-aios-overview]] — 手机端 AIOS 的具身智能扩展
- [[secagent-mobile-gui]] — 移动端 Agent 的感知框架