Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 基于同一骨干网络构建端到端多模态检索框架,在 MMEB-V2 等基准达到 SOTA 性能,同时兼顾部署效率与多语言能力。
研究背景
- 多模态内容爆发:互联网海量图像、视频、图文文档要求检索系统突破纯文本局限
- 现有模型局限:模态对齐不充分、长序列处理能力弱、部署效率低、跨任务泛化性差
- VLM 基础优势:Qwen3-VL 等模型已实现跨模态理解突破,可天然继承多模态对齐能力
模型核心设计
整体架构
| 模型 | 架构 | 功能 |
|---|---|---|
| Qwen3-VL-Embedding | 双编码器(Bi-Encoder) | 多模态输入映射为高维稠密向量,实现快速候选召回 |
| Qwen3-VL-Reranker | 交叉编码器(Cross-Encoder) | 捕捉查询与文档细粒度交互,输出精准相关性分数 |
两者均支持最长 32k tokens 输入,支持 30+ 语言。
输入模板
嵌入模型:指令作为系统消息 + 多模态实例 + PAD 令牌,以 PAD 令牌隐藏状态作为稠密向量
重排序模型:相关性定义指令 + 查询 + 文档,转化为二分类任务(预测 yes/no)
关键特性
| 特性 | 说明 |
|---|---|
| 统一表征空间 | 文本/图像/视觉文档/视频映射到同一语义空间 |
| MRL | 支持灵活嵌入维度选择,无需重新训练 |
| QAT | 训练中使用全精度和 Int8 嵌入计算损失 |
| 指令感知 | 支持任务特定输入指令定制 |
训练数据构建
统一数据集格式
四元组 $D_i=(I_i, Q_i, C_i, R_i)$:指令、查询集、文档集、相关性标签
数据合成
基于高质量种子池,利用 Qwen3-VL-32B 完成多模态、多任务标注:
- 图像任务:分类、问答、检索
- 视频任务:分类、问答、检索、时刻检索
正样本优化与难负样本挖掘
- 用嵌入模型提取向量,基于余弦相似度召回 Top-K 候选
- 设置分数阈值保留正样本,选择语义接近但实际无关的难负样本
多阶段训练策略
| 阶段 | 目标 | 输出 |
|---|---|---|
| 阶段 1:对比预训练 | 构建基础相关性认知 | s0 模型 |
| 阶段 2:多任务精调+重排序微调 | 提升任务特异性与精准确判 | s1 + Reranker |
| 阶段 3:蒸馏+融合 | 补齐短板,全局最优 | s3(最终版) |
损失函数
嵌入模型损失
| 数据类型 | 损失函数 |
|---|---|
| 检索数据 | InfoNCE 损失 + 掩码因子 |
| 分类数据 | 对比学习损失 |
| STS 数据 | CoSent 损失 |
| 蒸馏数据 | 交叉熵损失 |
重排序模型损失
$$\mathcal{L}_{reranking}=-\log p(l | I, q, d)$$
实验结果
核心性能
- MMEB-V2:Qwen3-VL-Embedding-8B 取得 77.8 整体分数,SOTA
- 视觉文档检索:重排序模型(8B)平均分数 80.3
- 纯文本任务(MMTEB 多语言):67.9 平均分数
- 重排序任务:较 2B 版本平均提升 4.1 分
训练阶段性能演变
| 版本 | 特点 |
|---|---|
| s0 | 基础预训练,各领域性能较低 |
| s1 | 多任务训练,非检索任务最优 |
| s2 | 蒸馏后,检索任务显著提升 |
| s3 | 融合后,所有任务均衡最优 |
核心创新点
- 统一多模态检索框架:基于 Qwen3-VL 构建嵌入+重排序端到端框架
- 高效多阶段训练:实现嵌入模型和重排序模型的协同优化
- 部署友好设计:MRL 和 QAT 支持灵活维度和低精度量化
- 高质量数据构建:数据合成+正样本优化+难负样本挖掘
- 长序列处理:支持 32k tokens 输入
应用价值
| 领域 | 应用 |
|---|---|
| 电商 | 商品图像/视频检索、图文详情页匹配 |
| 科研 | 学术论文检索、实验数据可视化匹配 |
| 社交媒体 | 图文/视频内容跨模态搜索 |
| 办公 | PDF/PPT 视觉文档检索 |
| 安防/医疗 | 监控视频检索、医学影像与报告匹配 |
张芷铭的个人博客
Comments