- 张芷铭的个人博客

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 采用三阶段递进式训练：对比预训练构建基础→多任务精调提升特异性→蒸馏融合补齐短板，实现多模态检索 SOTA 性能。

核心前提

为嵌入模型建立跨模态相关性理解的基础能力，学习不同模态的统一语义表征空间。

项目	内容
训练对象	仅 Qwen3-VL-Embedding
训练数据	大规模多模态合成数据（亿级），覆盖图像/视频的分类、问答、检索任务
损失函数	InfoNCE 损失，包含 5 类相似度项
输出	Qwen3-VL-Embedding: s0，具备基础跨模态语义对齐能力

让模型从零建立对多模态数据的语义理解，利用大规模弱监督数据提升泛化性。

项目	内容
任务定义	二分类任务，预测查询-文档对相关/无关
训练数据	高质量检索专用子集
损失函数	负对数似然损失：$\mathcal{L}_{reranking}=-\log p(l
输出	Qwen3-VL-Reranker，具备细粒度多模态相关性判读能力

将重排序模型作为教师模型，嵌入模型学习其精准相关性判读能力：

$$\hat{\epsilon}{\text{distill}} = \text{CrossEntropy}(P{embedding}, P_{reranker})$$

输出：Qwen3-VL-Embedding: s2，检索任务性能大幅提升

输出：Qwen3-VL-Embedding: s3，最终版本

graph LR
A[阶段1：对比预训练] -->|输出s0| B[阶段2：多任务精调+重排序微调]
B -->|输出s1+Reranker| C[阶段3：蒸馏+融合]
C -->|输出s3| D[SOTA多模态检索性能]

三阶段训练的核心设计：

最终 Qwen3-VL-Embedding: s3 在 MMEB-V2 benchmark 取得 77.8 的 SOTA 分数。