type: concept tags: [vlm, compact-model, low-resource, edge-device, vision-language, two-tower, 参数高效, 端侧] related: [[fast-dvlm-block-diffusion-vlm]], [[multimodal-sentence-transformers]], [[multimodal-edge-pruning]], [[gemma4-ondevice]], [[mini-cpm-242]] sources: - url: https://arxiv.org/abs/2604.18452 title: "ESsEN: Training Compact Discriminative Vision-Language Transformers in a Low-Resource Setting" date: 2026-04-20 reliability: high created: 2026-04-21 updated: 2026-04-21

ESsEN: 低资源条件下训练紧凑判别式视觉语言模型¶

受儿童语言习得过程中数据稀疏性的启发，系统性研究如何用少量参数和小数据集训练端侧可用的视觉语言模型。核心发现：双塔编码器 + 卷积融合可在边缘设备上以极少量参数达到与大模型相当的判别性能。

核心问题¶

视觉语言模型（VLM）参数量通常在数百亿级别，但许多实际场景需要轻量模型： - 边缘设备部署：独立机器人平台、移动端等资源受限环境 - 独立研究者：无法负担训练/推理大模型的计算资源 - 现有研究空白：轻量 VLM 的设计和训练方法论严重不足

方法架构¶

ESsEN 模型设计¶

ESsEN 是一个紧凑的视觉语言模型，可以端到端训练，资源需求远低于现有方案。

架构核心发现（三项系统性实验结果）：

双塔编码器优于单塔：在低资源判别式任务中，two-tower encoder 模型表现显著优于 one-tower encoder
视觉塔和语言塔独立编码，仅在融合阶段交互
这种分离降低了参数共享导致的过拟合风险
卷积网络增强参数效率：在双塔 transformer 架构中融入传统卷积网络（CNN）可以提升参数效率
CNN 的局部感受野补充了 transformer 的全局注意力
在相同参数量下获得更好的视觉特征提取
跨模态融合模块的形状灵活：双塔编码器的跨模态融合模块可以在形状和大小上大幅变化，同时保持相同结果
这意味着可以根据设备能力灵活调整融合层结构
从桌面到手机到 IoT 都可以找到合适的融合配置

训练特点¶

端到端训练：不需要分阶段预训练
低资源需求：用相对少量的数据和计算资源即可完成训练
受儿童语言习得启发：模仿人类从少量数据中学习语言-视觉关联的渐进过程

实验结果¶

在多个判别式英语任务上的评估： - ESsEN 用一小部分参数就能达到与其他模型相当的性能 - 双塔 + 卷积架构在低资源条件下持续优于纯 transformer 方案 - 跨模态融合的形状变化实验证明了架构的灵活性

关键洞察¶

为什么双塔优于单塔：单塔编码器（如 ViT-L 类型）在参数量受限时，视觉和语言信号在早期层就混合，导致两个模态的梯度互相干扰。双塔架构让每个模态先独立学习表示，只在最后的融合层交互，降低了学习难度。

卷积的回归价值：在 transformer 时代，卷积网络被普遍认为"过时"。ESsEN 证明，在参数受限的场景下，CNN 的归纳偏置（平移不变性、局部感受野）反而是有价值的正则化手段，可以帮助小模型更快收敛。

对端侧的意义：这项工作为在手机/IoT 设备上部署视觉语言模型提供了方法论基础——不是简单地"把大模型压缩"，而是从架构设计层面就考虑低资源条件。

为什么重要¶

端侧 VLM 设计方法论：填补了轻量 VLM 设计方法论的空白，不仅提供了一个具体模型，更提供了系统性的设计原则
降低 AI 准入门槛：让独立研究者和资源有限的团队也能参与视觉语言模型的研究
移动端多模态应用：为手机端的视觉理解、图像描述、视觉问答等应用提供了可落地的模型架构
架构灵活性：融合模块的形状灵活性使得同一架构可以在不同设备上找到最优配置

关联¶

[[fast-dvlm-block-diffusion-vlm]] — 另一种高效 VLM 设计方案（块扩散）
[[multimodal-sentence-transformers]] — 多模态句子编码，与 VLM 训练方法相关
[[multimodal-edge-pruning]] — 多模态模型的边缘剪枝优化
[[gemma4-ondevice]] — 谷歌端侧模型，代表另一种端侧部署路线
[[mini-cpm-242]] — MiniCPM，另一款注重效率的紧凑模型
[[slms-vs-llms]] — 小模型 vs 大模型的对比分析