多模态检索 Embedding 模型将图像、文本映射到统一语义空间,实现跨模态检索。
主流模型对比
| 模型 | 维度 | 参数量 | 特点 |
|---|---|---|---|
| SigLIP2 | 1152 | 400M | 多语言支持,原生宽高比 |
| 图搜特化 SigLIP | 1024 | - | 检索性能优化 |
| GME | 1536 | 2B/7B | 统一多模态语义空间 |
| Qwen3VL Embedder | 4096 | 8B | 多模态全覆盖,支持视频 |
SigLIP2
Google 2025 年工作,基于 SigLIP 系统化改进:
- 多语言支持(109 种语言)
- NaFlex 变体支持多种分辨率
- 训练:标题生成 + 自蒸馏 + 掩码预测
GME
通义实验室开源的统一多模态表征模型:
- 基于 Qwen2-VL
- 文本、图像、图文组合映射到同一语义空间
- 支持富文本图片检索(PDF、财报)
Qwen3VL Embedder
通义 2026 年推出的多模态嵌入模型:
- 支持文本、图像、文档、视频
- 量化感知训练
- MMEB-V2 基准榜首(77.8 分)
选型建议
| 场景 | 推荐 |
|---|---|
| 轻量级部署 | SigLIP2 |
| 高精度检索 | Qwen3VL Embedder |
| 统一语义空间 | GME |
张芷铭的个人博客
Comments