type: concept tags: [端云协同, 多模态, 边缘计算, 视频推理, 带宽优化] related: [[comllm-mec-offloading]], [[edgeflow-cold-start]], [[networking-energy-agentic]] sources: - url: https://arxiv.org/abs/2604.05375 title: "DAT: Dual-Aware Adaptive Transmission for Efficient Multimodal LLM Inference in Edge-Cloud Systems" date: 2026-04-08 reliability: high created: 2026-04-21 updated: 2026-04-21
DAT: 面向端云系统的双感知自适应传输¶
在带宽受限的端云系统中,通过"语义感知"和"带宽感知"双重机制,智能筛选视频流中值得上传的高价值帧,大幅降低多模态 LLM 推理的计算和通信开销。
核心问题¶
在持续视频流场景中部署多模态 LLM(MLLM)面临两个根本挑战:
- 计算负担:深度语义推理需要处理大量视觉 token。一个 100 帧的视频片段(使用 CLIP-ViT-L/14)产生约 25.6K token,开销巨大
- 通信瓶颈:持续上传所有视频到云端造成上行链路拥塞。单个 1080p 流(20fps)需要 1-3 Mbps;30-40 万路流需要 300-1200 Gbps 持续带宽
大多数帧仅包含低价值背景内容,但传统方法对所有帧一视同仁处理。
方法/架构¶
DAT 提出双感知自适应传输框架:
- 语义感知:在边缘端进行轻量级语义分析,识别视频帧的语义价值,只传输高价值帧到云端进行深度 MLLM 推理
- 带宽感知:根据实时网络带宽动态调整传输策略,在带宽紧张时进一步降低传输量
- 自适应调度:结合两者,在保证推理质量的前提下最小化通信开销
实验结果¶
- 相比全帧上传方案,通信开销大幅降低
- 在语义检测和视觉推理任务上保持了高精度
- 在不同带宽条件下表现出良好的鲁棒性
关键洞察¶
不是所有帧都值得"看":在连续视频流中,绝大多数帧的语义价值很低。通过边缘端的轻量预处理筛选出"值得看的帧",可以在不损失推理质量的前提下大幅降低端云通信开销。
为什么重要¶
- 视频监控 AI 的实际部署:全球部署了数亿摄像头,视频占移动数据流量的 76%
- 端云协作新模式:不是简单的"全部本地"或"全部云端",而是智能的按需分配
- 移动设备带宽节省:减少不必要的数据传输,降低用户流量消耗
关联¶
- [[comllm-mec-offloading]] — 同为端云协作的计算卸载方案
- [[edgeflow-cold-start]] — 边缘推理的冷启动优化
- [[networking-energy-agentic]] — Agent 推理的能效优化