张芷铭的个人博客

多模态检索 Embedding 模型将图像、文本映射到统一语义空间,实现跨模态检索。

主流模型对比

模型维度参数量特点
SigLIP21152400M多语言支持,原生宽高比
图搜特化 SigLIP1024-检索性能优化
GME15362B/7B统一多模态语义空间
Qwen3VL Embedder40968B多模态全覆盖,支持视频

SigLIP2

Google 2025 年工作,基于 SigLIP 系统化改进:

  • 多语言支持(109 种语言)
  • NaFlex 变体支持多种分辨率
  • 训练:标题生成 + 自蒸馏 + 掩码预测

GME

通义实验室开源的统一多模态表征模型:

  • 基于 Qwen2-VL
  • 文本、图像、图文组合映射到同一语义空间
  • 支持富文本图片检索(PDF、财报)

Qwen3VL Embedder

通义 2026 年推出的多模态嵌入模型:

  • 支持文本、图像、文档、视频
  • 量化感知训练
  • MMEB-V2 基准榜首(77.8 分)

选型建议

场景推荐
轻量级部署SigLIP2
高精度检索Qwen3VL Embedder
统一语义空间GME

Comments