type: concept tags: [mllm, token-compression, visual-optimization, oppo, inference-acceleration, mobile-ai, 视觉token压缩] related: [[gemma4-ondevice]], [[on-device-inference-memory-pressure]], [[kv-cache-quantization-ondevice]], [[edgeflow-cold-start]] sources: - url: https://arxiv.org/abs/2604.17087 title: "EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling" date: 2026-04-18 reliability: high created: 2026-04-21 updated: 2026-04-21
EvoComp: OPPO 视觉 Token 压缩框架¶
OPPO CTG 团队提出 EvoComp,通过语义引导的进化标注策略训练视觉 token 压缩器,在保持 MLLM 任务精度的同时大幅减少视觉 token 数量,对端侧多模态推理有直接意义。arXiv: 2604.17087
核心问题¶
多模态大语言模型 (MLLM) 在视觉语言理解任务上表现优异,但大量视觉 token 严重拖累推理效率——特别是高分辨率或多图场景下。在手机端运行 MLLM 时,视觉 token 的数量直接决定了: - KV-Cache 内存占用(与 token 数量线性相关) - 推理延迟(注意力计算复杂度 O(n²)) - 功耗(计算量越大越耗电)
方法/架构¶
EvoComp 框架¶
- 轻量级编码器压缩器: 基于 encoder-only transformer 的 token 选择器,通过联合考虑视觉和文本上下文,选出信息量最大且最不冗余的视觉 token
- 进化标注策略 (Evolutionary Labeling): 不需要人工标注,而是通过搜索最小化 MLLM 输出损失的 token 子集,同时通过词汇表分组强制语义多样性
- 定制损失函数:
- GHM 损失: 缓解类别和难度不平衡
- 余弦相似度正则化: 鼓励保留 token 和丢弃 token 之间的语义分离
核心思想¶
- 压缩器在视觉 token 之后、LLM 之前插入
- 选择哪些 token 保留,哪些丢弃
- 通过进化搜索找到最优的 token 选择策略
- 将搜索结果作为压缩器训练的监督信号
实验结果/关键数据¶
- 在多个视觉语言基准上评估(VQA、图像描述、多模态推理等)
- 大幅减少视觉 token 数量的同时保持任务精度
- OPPO 作为手机厂商的直接参与,表明该技术有端侧部署的工程考量
关键洞察¶
-
OPPO 直接下场: 作为中国主要手机厂商之一,OPPO 直接投入 MLLM 视觉 token 压缩研究,表明端侧多模态推理已经是手机厂商的核心技术布局
-
进化搜索 > 直接训练: 用进化算法搜索最优 token 选择策略,比端到端直接训练压缩器效果更好——因为直接训练的梯度信号在"选择"操作上是不可导的
-
语义多样性约束: 不只是选择"信息量最大"的 token,还要保证所选 token 的语义多样性——避免选择冗余的相似 token
-
对端侧部署的价值: 视觉 token 压缩直接减少 KV-Cache 内存和注意力计算量,是端侧 MLLM 推理的关键优化手段
为什么重要¶
对手机端 AIOS 的核心意义: - 端侧多模态推理的必需品: 手机上的摄像头、屏幕截图等视觉输入需要 MLLM 处理,但有限的内存和计算能力要求必须压缩视觉 token - 手机厂商的技术竞争: OPPO 发布此研究,表明小米、vivo 等其他厂商也在进行类似工作——视觉 token 压缩将成为手机 AI 的标配技术 - 与量化协同: token 压缩 + 量化 + 推测解码可以叠加效果,三者结合可能是端侧 MLLM 的最优部署方案 - 实时应用支持: 压缩后延迟降低,使得实时摄像头场景理解等应用成为可能
关联¶
- [[gemma4-ondevice]] — 端侧多模态模型,视觉 token 压缩的直接应用场景
- [[on-device-inference-memory-pressure]] — 视觉 token 压缩减轻内存压力
- [[kv-cache-quantization-ondevice]] — 与 KV-Cache 量化协同优化
- [[edgeflow-cold-start]] — 端云协同中的视觉处理优化
- [[ggml-llamacpp-hf]] — llama.cpp 对多模态模型的支持