张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

多模态检索 Embedding 模型将图像、文本映射到统一语义空间，实现跨模态检索。

主流模型对比

模型	维度	参数量	特点
SigLIP2	1152	400M	多语言支持，原生宽高比
图搜特化 SigLIP	1024	-	检索性能优化
GME	1536	2B/7B	统一多模态语义空间
Qwen3VL Embedder	4096	8B	多模态全覆盖，支持视频

SigLIP2

Google 2025 年工作，基于 SigLIP 系统化改进：

多语言支持（109 种语言）
NaFlex 变体支持多种分辨率
训练：标题生成 + 自蒸馏 + 掩码预测

GME

通义实验室开源的统一多模态表征模型：

基于 Qwen2-VL
文本、图像、图文组合映射到同一语义空间
支持富文本图片检索（PDF、财报）

Qwen3VL Embedder

通义 2026 年推出的多模态嵌入模型：

支持文本、图像、文档、视频
量化感知训练
MMEB-V2 基准榜首（77.8 分）

选型建议

场景	推荐
轻量级部署	SigLIP2
高精度检索	Qwen3VL Embedder
统一语义空间	GME

Comments