跳转至

type: concept tags: [multi-robot, mllm, multi-agent, edge-computing, sensing, 多Agent, 端侧AI] related: [[codas-wearable-biomarker]], [[agent-persistent-identity]], [[edge-optimization]] sources: - url: https://arxiv.org/abs/2604.00061 title: "Advancing Multi-Robot Networks via MLLM-Driven Sensing, Communication, and Computation: A Comprehensive Survey" date: 2026-03-31 reliability: high created: 2026-04-17 updated: 2026-04-17


MLLM 驱动的多机器人网络

多模态大语言模型作为多机器人协作系统的感知-通信-计算统一框架

核心问题

先进人形机器人在单体智能上取得了显著进展(如仓库物流、制造、救援任务),但真实场景要求多机器人协作。核心挑战在于:

  1. 感知数据洪流:多个机器人同时产生大量传感器数据(视觉、LiDAR、力觉等),传输带宽不足
  2. 协作推理:需要系统级的协调者理解全局态势,而非每个机器人独立决策
  3. 自然语言指令:高层任务需要从自然语言意图转换为多机器人的具体行动序列

传统方法要么将所有数据上传云端(带宽爆炸),要么让每个机器人独立决策(缺乏全局协调)。

方法/架构

MLLM 驱动的多机器人协作框架包含三层架构:

感知层:意图驱动的传感器激活

  • MLLM 理解高层自然语言指令(如"在仓库 A 区域找到异常温升")
  • 基于任务意图,选择性激活相关传感模态(只开热成像,不用全开摄像头)
  • 大幅减少数据传输量

通信层:语义压缩

  • 不传输原始传感器数据,而是传输语义摘要
  • MLLM 生成任务相关的状态报告,而非全量数据流
  • 支持机器人间的自然语言通信

计算层:端云协同

  • 云端 MLLM 负责全局态势感知和路由规划
  • 边缘节点处理实时感知和局部决策
  • 机器人端执行低延迟运动控制

实验结果/关键数据

作为综述论文,系统分析了多个前沿系统: - 在仓库物流场景中,MLLM 协调的多机器人系统相比独立机器人,任务完成率提升 20-40% - 语义通信相比原始数据传输,带宽节省可达 90%+ - 端云协同架构下,端到端延迟可控制在 100ms 以内

关键洞察

MLLM 作为"系统大脑"的范式转变:传统多机器人系统使用规则引擎或强化学习进行协调,MLLM 通过理解自然语言意图,实现了更灵活的调度。

对手机端 AIOS 的启示: - 手机本身就是多传感器设备(摄像头、麦克风、GPS、IMU、生物传感器),类似"单机器人" - 手机上的 AI Agent 可以采用相同的"意图驱动感知"策略,避免无差别采集数据 - 手机与穿戴设备、IoT 设备的协作,天然构成"多设备网络"

关键技术挑战: - MLLM 推理延迟过高,不适合实时控制 - 模型压缩后性能下降严重 - 多模态融合的端侧实现仍是开放问题

为什么重要

  1. 多 Agent 协作的前沿方向:MLLM 驱动的多机器人是多 Agent 系统在物理世界的终极形态
  2. 端云协同的范本:展示了如何在带宽受限条件下实现智能协作
  3. 手机 AIOS 的外延:手机与穿戴设备、IoT 的协作可借鉴相同的架构
  4. 感知-通信-计算联合优化:这一框架对端侧 AI 系统设计有普适价值

关联

  • [[codas-wearable-biomarker]] — 穿戴传感器数据是多设备网络的重要数据源
  • [[agent-persistent-identity]] — 多 Agent 系统需要持久化的任务状态和身份
  • [[edge-optimization]] — 端云协同需要推理优化和模型压缩
  • [[wearable-large-sensor-models]] — LSM 提供统一的传感器表示,是多设备协作的基础