type: concept tags: [multi-robot, mllm, multi-agent, edge-computing, sensing, 多Agent, 端侧AI] related: [[codas-wearable-biomarker]], [[agent-persistent-identity]], [[edge-optimization]] sources: - url: https://arxiv.org/abs/2604.00061 title: "Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey" date: 2026-03-31 reliability: high created: 2026-04-17 updated: 2026-04-17

MLLM 驱动的多机器人网络¶

多模态大语言模型作为多机器人协作系统的感知-通信-计算统一框架

核心问题¶

先进人形机器人在单体智能上取得了显著进展（如仓库物流、制造、救援任务），但真实场景要求多机器人协作。核心挑战在于：

感知数据洪流：多个机器人同时产生大量传感器数据（视觉、LiDAR、力觉等），传输带宽不足
协作推理：需要系统级的协调者理解全局态势，而非每个机器人独立决策
自然语言指令：高层任务需要从自然语言意图转换为多机器人的具体行动序列

传统方法要么将所有数据上传云端（带宽爆炸），要么让每个机器人独立决策（缺乏全局协调）。

方法/架构¶

MLLM 驱动的多机器人协作框架包含三层架构：

感知层：意图驱动的传感器激活¶

MLLM 理解高层自然语言指令（如"在仓库 A 区域找到异常温升"）
基于任务意图，选择性激活相关传感模态（只开热成像，不用全开摄像头）
大幅减少数据传输量

通信层：语义压缩¶

不传输原始传感器数据，而是传输语义摘要
MLLM 生成任务相关的状态报告，而非全量数据流
支持机器人间的自然语言通信

计算层：端云协同¶

云端 MLLM 负责全局态势感知和路由规划
边缘节点处理实时感知和局部决策
机器人端执行低延迟运动控制

实验结果/关键数据¶

作为综述论文，系统分析了多个前沿系统： - 在仓库物流场景中，MLLM 协调的多机器人系统相比独立机器人，任务完成率提升 20-40% - 语义通信相比原始数据传输，带宽节省可达 90%+ - 端云协同架构下，端到端延迟可控制在 100ms 以内

关键洞察¶

MLLM 作为"系统大脑"的范式转变：传统多机器人系统使用规则引擎或强化学习进行协调，MLLM 通过理解自然语言意图，实现了更灵活的调度。

对手机端 AIOS 的启示： - 手机本身就是多传感器设备（摄像头、麦克风、GPS、IMU、生物传感器），类似"单机器人" - 手机上的 AI Agent 可以采用相同的"意图驱动感知"策略，避免无差别采集数据 - 手机与穿戴设备、IoT 设备的协作，天然构成"多设备网络"

关键技术挑战： - MLLM 推理延迟过高，不适合实时控制 - 模型压缩后性能下降严重 - 多模态融合的端侧实现仍是开放问题

为什么重要¶

多 Agent 协作的前沿方向：MLLM 驱动的多机器人是多 Agent 系统在物理世界的终极形态
端云协同的范本：展示了如何在带宽受限条件下实现智能协作
手机 AIOS 的外延：手机与穿戴设备、IoT 的协作可借鉴相同的架构
感知-通信-计算联合优化：这一框架对端侧 AI 系统设计有普适价值

关联¶

[[codas-wearable-biomarker]] — 穿戴传感器数据是多设备网络的重要数据源
[[agent-persistent-identity]] — 多 Agent 系统需要持久化的任务状态和身份
[[edge-optimization]] — 端云协同需要推理优化和模型压缩
[[wearable-large-sensor-models]] — LSM 提供统一的传感器表示，是多设备协作的基础