type: concept tags: [端云协同, 多模态, 边缘计算, 视频推理, 带宽优化] related: [[comllm-mec-offloading]], [[edgeflow-cold-start]], [[networking-energy-agentic]] sources: - url: https://arxiv.org/abs/2604.05375 title: "DAT: Dual-Aware Adaptive Transmission for Efficient Multimodal LLM Inference in Edge-Cloud Systems" date: 2026-04-08 reliability: high created: 2026-04-21 updated: 2026-04-21

DAT: 面向端云系统的双感知自适应传输¶

在带宽受限的端云系统中，通过"语义感知"和"带宽感知"双重机制，智能筛选视频流中值得上传的高价值帧，大幅降低多模态 LLM 推理的计算和通信开销。

核心问题¶

在持续视频流场景中部署多模态 LLM（MLLM）面临两个根本挑战：

计算负担：深度语义推理需要处理大量视觉 token。一个 100 帧的视频片段（使用 CLIP-ViT-L/14）产生约 25.6K token，开销巨大
通信瓶颈：持续上传所有视频到云端造成上行链路拥塞。单个 1080p 流（20fps）需要 1-3 Mbps；30-40 万路流需要 300-1200 Gbps 持续带宽

大多数帧仅包含低价值背景内容，但传统方法对所有帧一视同仁处理。

方法/架构¶

DAT 提出双感知自适应传输框架：

语义感知：在边缘端进行轻量级语义分析，识别视频帧的语义价值，只传输高价值帧到云端进行深度 MLLM 推理
带宽感知：根据实时网络带宽动态调整传输策略，在带宽紧张时进一步降低传输量
自适应调度：结合两者，在保证推理质量的前提下最小化通信开销

实验结果¶

相比全帧上传方案，通信开销大幅降低
在语义检测和视觉推理任务上保持了高精度
在不同带宽条件下表现出良好的鲁棒性

关键洞察¶

不是所有帧都值得"看"：在连续视频流中，绝大多数帧的语义价值很低。通过边缘端的轻量预处理筛选出"值得看的帧"，可以在不损失推理质量的前提下大幅降低端云通信开销。

为什么重要¶

视频监控 AI 的实际部署：全球部署了数亿摄像头，视频占移动数据流量的 76%
端云协作新模式：不是简单的"全部本地"或"全部云端"，而是智能的按需分配
移动设备带宽节省：减少不必要的数据传输，降低用户流量消耗

关联¶

[[comllm-mec-offloading]] — 同为端云协作的计算卸载方案
[[edgeflow-cold-start]] — 边缘推理的冷启动优化
[[networking-energy-agentic]] — Agent 推理的能效优化