QFormer：桥接视觉与语言的查询式Transformer

QFormer（Querying Transformer）是BLIP-2的核心组件，通过可学习的查询向量桥接视觉编码器与LLM，实现视觉-语言模态对齐。

核心架构

模块	说明
图像Transformer	处理视觉特征
文本Transformer	处理文本特征
交叉注意力层	视觉-语言交互

数学表示

给定图像特征 $Z_{v}$ 和查询向量 $Q$ ：

$CrossAttn (Q, Z_{v}) = softmax (\frac{Q W _{q} ( Z _{v} W _{k} ) ^{T}}{d}) Z_{v} W_{v}$

核心优势

优势	说明
参数高效	仅训练~188M参数，冻结视觉编码器和LLM
灵活适配	可连接任意视觉编码器与LLM
多任务预训练	三阶段训练实现跨模态对齐

工作流程

视觉编码器 → 图像特征 → QFormer → 查询向量 → LLM