type: concept tags: [multi-robot, mllm, multi-agent, edge-computing, sensing, 多Agent, 端侧AI] related: [[codas-wearable-biomarker]], [[agent-persistent-identity]], [[edge-optimization]] sources: - url: https://arxiv.org/abs/2604.00061 title: "Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey" date: 2026-03-31 reliability: high created: 2026-04-17 updated: 2026-04-17
MLLM 驱动的多机器人网络¶
多模态大语言模型作为多机器人协作系统的感知-通信-计算统一框架
核心问题¶
先进人形机器人在单体智能上取得了显著进展(如仓库物流、制造、救援任务),但真实场景要求多机器人协作。核心挑战在于:
- 感知数据洪流:多个机器人同时产生大量传感器数据(视觉、LiDAR、力觉等),传输带宽不足
- 协作推理:需要系统级的协调者理解全局态势,而非每个机器人独立决策
- 自然语言指令:高层任务需要从自然语言意图转换为多机器人的具体行动序列
传统方法要么将所有数据上传云端(带宽爆炸),要么让每个机器人独立决策(缺乏全局协调)。
方法/架构¶
MLLM 驱动的多机器人协作框架包含三层架构:
感知层:意图驱动的传感器激活¶
- MLLM 理解高层自然语言指令(如"在仓库 A 区域找到异常温升")
- 基于任务意图,选择性激活相关传感模态(只开热成像,不用全开摄像头)
- 大幅减少数据传输量
通信层:语义压缩¶
- 不传输原始传感器数据,而是传输语义摘要
- MLLM 生成任务相关的状态报告,而非全量数据流
- 支持机器人间的自然语言通信
计算层:端云协同¶
- 云端 MLLM 负责全局态势感知和路由规划
- 边缘节点处理实时感知和局部决策
- 机器人端执行低延迟运动控制
实验结果/关键数据¶
作为综述论文,系统分析了多个前沿系统: - 在仓库物流场景中,MLLM 协调的多机器人系统相比独立机器人,任务完成率提升 20-40% - 语义通信相比原始数据传输,带宽节省可达 90%+ - 端云协同架构下,端到端延迟可控制在 100ms 以内
关键洞察¶
MLLM 作为"系统大脑"的范式转变:传统多机器人系统使用规则引擎或强化学习进行协调,MLLM 通过理解自然语言意图,实现了更灵活的调度。
对手机端 AIOS 的启示: - 手机本身就是多传感器设备(摄像头、麦克风、GPS、IMU、生物传感器),类似"单机器人" - 手机上的 AI Agent 可以采用相同的"意图驱动感知"策略,避免无差别采集数据 - 手机与穿戴设备、IoT 设备的协作,天然构成"多设备网络"
关键技术挑战: - MLLM 推理延迟过高,不适合实时控制 - 模型压缩后性能下降严重 - 多模态融合的端侧实现仍是开放问题
为什么重要¶
- 多 Agent 协作的前沿方向:MLLM 驱动的多机器人是多 Agent 系统在物理世界的终极形态
- 端云协同的范本:展示了如何在带宽受限条件下实现智能协作
- 手机 AIOS 的外延:手机与穿戴设备、IoT 的协作可借鉴相同的架构
- 感知-通信-计算联合优化:这一框架对端侧 AI 系统设计有普适价值
关联¶
- [[codas-wearable-biomarker]] — 穿戴传感器数据是多设备网络的重要数据源
- [[agent-persistent-identity]] — 多 Agent 系统需要持久化的任务状态和身份
- [[edge-optimization]] — 端云协同需要推理优化和模型压缩
- [[wearable-large-sensor-models]] — LSM 提供统一的传感器表示,是多设备协作的基础