张芷铭的个人博客

QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。

BLIP-2论文

核心架构

模块说明
图像Transformer处理视觉特征
文本Transformer处理文本特征
交叉注意力层视觉-语言交互

数学表示

给定图像特征$Z_v$和查询向量$Q$:

$$\text{CrossAttn}(Q, Z_v) = \text{softmax}\left(\frac{QW_q (Z_vW_k)^T}{\sqrt{d}}\right) Z_vW_v$$

核心优势

优势说明
参数高效仅训练~188M参数,冻结视觉编码器和LLM
灵活适配可连接任意视觉编码器与LLM
多任务预训练三阶段训练实现跨模态对齐

工作流程

1
视觉编码器 → 图像特征 → QFormer → 查询向量 → LLM

Comments