type: concept tags: [multimodal, embedding, reranker, sentence-transformers, huggingface, on-device, retrieval, search] related: [[gemma4-ondevice]], [[on-device-inference-memory-pressure]], [[mobile-aios-overview]], [[apple-intelligence]] sources: - url: https://huggingface.co/blog/multimodal-sentence-transformers title: "Multimodal Embedding & Reranker Models with Sentence Transformers" date: 2026-04-09 reliability: high - url: https://huggingface.co/blog/train-multimodal-sentence-transformers title: "Training and Finetuning Multimodal Embedding & Reranker Models" date: 2026-04-09 reliability: high created: 2026-04-17 updated: 2026-04-17

Sentence Transformers 多模态嵌入与重排¶

Sentence Transformers v5.4 新增多模态支持，可用统一 API 对文本、图像、音频、视频进行编码和跨模态相似度计算。Tom Aarsen (HuggingFace) 发布。

核心问题¶

传统嵌入模型只能处理文本，无法实现跨模态检索（如用文字搜图、用图像搜文档）。移动端场景下，用户期望在手机上实现统一的多模态搜索体验——拍照搜商品、语音搜图片、截图搜文档。

方法/架构¶

多模态嵌入模型¶

将不同模态（文本、图像、音频、视频）映射到共享嵌入空间
可用标准余弦相似度比较跨模态内容
支持 text→image、image→text、audio→text 等任意方向检索

多模态重排模型（Cross Encoder）¶

对混合模态对计算相关性分数
支持 text-image、text-audio 等组合评分
比嵌入模型精度更高，但计算量更大（适合精排阶段）

API 设计¶

# 嵌入模型 — 文本和图像统一编码
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Qwen3-VL-2B")
text_emb = model.encode("一只猫在沙发上")
image_emb = model.encode("cat.jpg")
similarity = model.similarity(text_emb, image_emb)

# 重排模型 — 混合模态评分
from sentence_transformers import CrossEncoder
reranker = CrossEncoder("Qwen3-VL-2B-reranker")
score = reranker.predict([("搜索 query", "candidate_image.jpg")])

依赖安装¶

pip install -U "sentence-transformers[image]"   # 图像支持
pip install -U "sentence-transformers[audio]"   # 音频支持
pip install -U "sentence-transformers[video]"   # 视频支持

关键数据¶

模型	VRAM 需求	适用场景
Qwen3-VL-2B	~8 GB	端侧/边缘设备
Qwen3-VL-8B	~20 GB	服务器/桌面 GPU

端侧适用性分析¶

直接适用： - Qwen3-VL-2B（~8GB VRAM）可在高端手机 NPU 或平板 GPU 上运行 - 嵌入计算是离线批量操作，适合预建索引场景 - 端侧视觉搜索（拍商品→搜相似商品）的核心组件

间接适用： - 服务端部署后通过 API 为端侧设备提供多模态搜索 - 端侧重排（小模型）+ 云端检索（大模型）的混合架构 - 与 [[gemma4-ondevice]] 结合：Gemma 4 做理解，Sentence Transformers 做检索

技术意义¶

统一多模态搜索 API：不再需要为每种模态维护独立的检索管线
端侧 RAG 的关键组件：多模态 RAG 需要跨模态检索能力，这是缺失的一环
训练范式扩展：同一套框架支持嵌入和重排两种任务的训练/微调
生态整合：与 HuggingFace transformers、datasets 生态无缝集成

关联¶

[[gemma4-ondevice]] — 端侧多模态理解模型，可与嵌入模型互补
[[on-device-inference-memory-pressure]] — 端侧推理技术栈，嵌入计算需要推理框架支持
[[apple-intelligence]] — Apple 的端侧 AI 方案，Core ML 可能集成类似能力
[[mobile-aios-overview]] — 手机端 AIOS 总体架构