张芷铭的个人博客

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 基于同一骨干网络构建端到端多模态检索框架,在 MMEB-V2 等基准达到 SOTA 性能,同时兼顾部署效率与多语言能力。

研究背景

  • 多模态内容爆发:互联网海量图像、视频、图文文档要求检索系统突破纯文本局限
  • 现有模型局限:模态对齐不充分、长序列处理能力弱、部署效率低、跨任务泛化性差
  • VLM 基础优势:Qwen3-VL 等模型已实现跨模态理解突破,可天然继承多模态对齐能力

模型核心设计

整体架构

模型架构功能
Qwen3-VL-Embedding双编码器(Bi-Encoder)多模态输入映射为高维稠密向量,实现快速候选召回
Qwen3-VL-Reranker交叉编码器(Cross-Encoder)捕捉查询与文档细粒度交互,输出精准相关性分数

两者均支持最长 32k tokens 输入,支持 30+ 语言。

输入模板

嵌入模型:指令作为系统消息 + 多模态实例 + PAD 令牌,以 PAD 令牌隐藏状态作为稠密向量

重排序模型:相关性定义指令 + 查询 + 文档,转化为二分类任务(预测 yes/no)

关键特性

特性说明
统一表征空间文本/图像/视觉文档/视频映射到同一语义空间
MRL支持灵活嵌入维度选择,无需重新训练
QAT训练中使用全精度和 Int8 嵌入计算损失
指令感知支持任务特定输入指令定制

训练数据构建

统一数据集格式

四元组 $D_i=(I_i, Q_i, C_i, R_i)$:指令、查询集、文档集、相关性标签

数据合成

基于高质量种子池,利用 Qwen3-VL-32B 完成多模态、多任务标注:

  • 图像任务:分类、问答、检索
  • 视频任务:分类、问答、检索、时刻检索

正样本优化与难负样本挖掘

  1. 用嵌入模型提取向量,基于余弦相似度召回 Top-K 候选
  2. 设置分数阈值保留正样本,选择语义接近但实际无关的难负样本

多阶段训练策略

阶段目标输出
阶段 1:对比预训练构建基础相关性认知s0 模型
阶段 2:多任务精调+重排序微调提升任务特异性与精准确判s1 + Reranker
阶段 3:蒸馏+融合补齐短板,全局最优s3(最终版)

损失函数

嵌入模型损失

数据类型损失函数
检索数据InfoNCE 损失 + 掩码因子
分类数据对比学习损失
STS 数据CoSent 损失
蒸馏数据交叉熵损失

重排序模型损失

$$\mathcal{L}_{reranking}=-\log p(l | I, q, d)$$

实验结果

核心性能

  • MMEB-V2:Qwen3-VL-Embedding-8B 取得 77.8 整体分数,SOTA
  • 视觉文档检索:重排序模型(8B)平均分数 80.3
  • 纯文本任务(MMTEB 多语言):67.9 平均分数
  • 重排序任务:较 2B 版本平均提升 4.1 分

训练阶段性能演变

版本特点
s0基础预训练,各领域性能较低
s1多任务训练,非检索任务最优
s2蒸馏后,检索任务显著提升
s3融合后,所有任务均衡最优

核心创新点

  1. 统一多模态检索框架:基于 Qwen3-VL 构建嵌入+重排序端到端框架
  2. 高效多阶段训练:实现嵌入模型和重排序模型的协同优化
  3. 部署友好设计:MRL 和 QAT 支持灵活维度和低精度量化
  4. 高质量数据构建:数据合成+正样本优化+难负样本挖掘
  5. 长序列处理:支持 32k tokens 输入

应用价值

领域应用
电商商品图像/视频检索、图文详情页匹配
科研学术论文检索、实验数据可视化匹配
社交媒体图文/视频内容跨模态搜索
办公PDF/PPT 视觉文档检索
安防/医疗监控视频检索、医学影像与报告匹配

Comments