- 张芷铭的个人博客

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 基于同一骨干网络构建端到端多模态检索框架，在 MMEB-V2 等基准达到 SOTA 性能，同时兼顾部署效率与多语言能力。

研究背景

多模态内容爆发：互联网海量图像、视频、图文文档要求检索系统突破纯文本局限
现有模型局限：模态对齐不充分、长序列处理能力弱、部署效率低、跨任务泛化性差
VLM 基础优势：Qwen3-VL 等模型已实现跨模态理解突破，可天然继承多模态对齐能力

模型核心设计

整体架构

模型	架构	功能
Qwen3-VL-Embedding	双编码器（Bi-Encoder）	多模态输入映射为高维稠密向量，实现快速候选召回
Qwen3-VL-Reranker	交叉编码器（Cross-Encoder）	捕捉查询与文档细粒度交互，输出精准相关性分数

两者均支持最长 32k tokens 输入，支持 30+ 语言。

输入模板

嵌入模型：指令作为系统消息 + 多模态实例 + PAD 令牌，以 PAD 令牌隐藏状态作为稠密向量

重排序模型：相关性定义指令 + 查询 + 文档，转化为二分类任务（预测 yes/no）

关键特性

特性	说明
统一表征空间	文本/图像/视觉文档/视频映射到同一语义空间
MRL	支持灵活嵌入维度选择，无需重新训练
QAT	训练中使用全精度和 Int8 嵌入计算损失
指令感知	支持任务特定输入指令定制

训练数据构建

统一数据集格式

四元组 $D_i=(I_i, Q_i, C_i, R_i)$：指令、查询集、文档集、相关性标签

数据合成

基于高质量种子池，利用 Qwen3-VL-32B 完成多模态、多任务标注：

图像任务：分类、问答、检索
视频任务：分类、问答、检索、时刻检索

正样本优化与难负样本挖掘

用嵌入模型提取向量，基于余弦相似度召回 Top-K 候选
设置分数阈值保留正样本，选择语义接近但实际无关的难负样本

多阶段训练策略

阶段	目标	输出
阶段 1：对比预训练	构建基础相关性认知	s0 模型
阶段 2：多任务精调+重排序微调	提升任务特异性与精准确判	s1 + Reranker
阶段 3：蒸馏+融合	补齐短板，全局最优	s3（最终版）

损失函数

嵌入模型损失

数据类型	损失函数
检索数据	InfoNCE 损失 + 掩码因子
分类数据	对比学习损失
STS 数据	CoSent 损失
蒸馏数据	交叉熵损失

重排序模型损失

$$\mathcal{L}_{reranking}=-\log p(l | I, q, d)$$

实验结果

核心性能

MMEB-V2：Qwen3-VL-Embedding-8B 取得 77.8 整体分数，SOTA
视觉文档检索：重排序模型（8B）平均分数 80.3
纯文本任务（MMTEB 多语言）：67.9 平均分数
重排序任务：较 2B 版本平均提升 4.1 分

训练阶段性能演变

版本	特点
s0	基础预训练，各领域性能较低
s1	多任务训练，非检索任务最优
s2	蒸馏后，检索任务显著提升
s3	融合后，所有任务均衡最优

核心创新点

统一多模态检索框架：基于 Qwen3-VL 构建嵌入+重排序端到端框架
高效多阶段训练：实现嵌入模型和重排序模型的协同优化
部署友好设计：MRL 和 QAT 支持灵活维度和低精度量化
高质量数据构建：数据合成+正样本优化+难负样本挖掘
长序列处理：支持 32k tokens 输入

应用价值

领域	应用
电商	商品图像/视频检索、图文详情页匹配
科研	学术论文检索、实验数据可视化匹配
社交媒体	图文/视频内容跨模态搜索
办公	PDF/PPT 视觉文档检索
安防/医疗	监控视频检索、医学影像与报告匹配