跳转至

type: concept tags: [multi-agent, latent-communication, agent协作, 隐空间通信, LLM推理优化] related: [[agentcomm-semantic-communication]], [[clawmobile-agentic]], [[emommas-edge-negotiation]], [[chain-of-modality]] sources: - url: https://arxiv.org/abs/2511.09149 title: "Enabling Agents to Communicate Entirely in Latent Space" date: 2026-04-17 reliability: high created: 2026-04-17 updated: 2026-04-17


Interlat: 让 Agent 在隐空间中直接通信

突破自然语言的离散瓶颈,Agent 之间直接传递连续隐状态,实现更高效的多 Agent 协作

核心问题

LLM Agent 的自然语言通信存在根本性瓶颈:Agent 必须将丰富的高维内部状态压缩为离散 token 序列(每个 token 仅约 15 bits),这严重限制了信息传输的深度和细微度。就像人类用语言描述一幅画时必然会丢失细节,Agent 之间的"对话"也存在信息损耗。

方法/架构

Interlat 提出让 Agent 直接传输 Transformer 的最后隐层状态而非 token 序列:

核心机制: 1. 隐状态提取:Agent 在生成回复时,收集每个解码步骤的最后隐层状态 h_ℓ ∈ R^d,组成矩阵 H ∈ R^{L×d} 2. 通信适配器:通过轻量级适配器处理隐状态,使其适配接收方 Agent 的架构 3. 隐空间传输:使用特殊 token 标记隐通信的开始和结束 4. 跨模型兼容:支持异构模型之间的隐空间通信(如 Qwen2.5-7B → LLaMA3.1-8B)

关键带宽对比: - 自然语言:~15 bits/token - 隐状态:~40K bits/hidden-state(约 2600 倍带宽

实验结果

在 AlfWorld(多步规划任务)和 MATH(数学推理)上的评估:

方法 表现 通信效率
No-CoT(无通信) 基线 最高
Text(自然语言) 中等
Interlat(隐空间) 最优
CrossTask(跨任务隐) 低于 Interlat

关键发现: - 隐空间通信在任务成功率上持续优于自然语言通信 - 隐通信能促进 Agent 的探索行为——隐状态携带的信息更丰富 - 跨模型通信(Qwen → LLaMA)仍然有效,证明隐空间表示具有通用性 - 隐空间压缩(reassembling)可以在大幅减少传输量的同时保持性能

异构模型兼容性实验:用 Qwen2.5-7B 的隐状态训练 LLaMA3.1-8B,性能仍优于自然语言基线,证明隐空间表示具有跨架构通用性。

关键洞察

隐空间通信是多 Agent 系统的范式转变:传统多 Agent 系统以自然语言为通信媒介(如 AutoGen、CrewAI),Interlat 证明了绕过这一瓶颈可以带来显著增益。

对移动端的深层意义: - 隐空间通信的带宽效率直接适用于带宽受限的端-端或端-云 Agent 通信 - 异构模型兼容性意味着不同手机上的 Agent(可能使用不同模型)可以直接协作 - 压缩后的隐通信可以减少端侧多 Agent 系统的通信开销 - 但需要注意:隐空间通信牺牲了人类可读性,在调试和审计场景下需要回退到自然语言

为什么重要

Interlat 揭示了一个被忽视的方向:Agent 之间的通信不需要人类可读。对于手机端 AIOS: - 多 Agent 协作(如一个 Agent 处理日程、一个处理消息)可以通过隐空间高效协调 - 端-云协同中,隐空间压缩可以减少数据传输量 - 异构兼容性为不同厂商设备上的 Agent 互通提供了理论基础 - 40K bits vs 15 bits 的带宽差异在移动网络环境下意义重大

关联

  • [[agentcomm-semantic-communication]] — AgentComm 关注语义通信压缩,Interlat 更激进地完全绕过语言
  • [[clawmobile-agentic]] — ClawMobile 的原生 Agent 架构可以集成隐空间通信层
  • [[emommas-edge-negotiation]] — EmoMAS 的情感感知多 Agent 协商可以利用隐空间传递情感状态
  • [[chain-of-modality]] — 多模态链式推理与隐空间通信在表示学习层面有共通之处