- 张芷铭的个人博客

张芷铭的个人博客

📅 2026-02-26

#transformer #ai #deep-learning #machine-learning

QFormer（Querying Transformer）是BLIP-2的核心组件，通过可学习的查询向量桥接视觉编码器与LLM，实现视觉-语言模态对齐。

核心架构

模块	说明
图像Transformer	处理视觉特征
文本Transformer	处理文本特征
交叉注意力层	视觉-语言交互

数学表示

给定图像特征$Z_v$和查询向量$Q$：

$$\text{CrossAttn}(Q, Z_v) = \text{softmax}\left(\frac{QW_q (Z_vW_k)^T}{\sqrt{d}}\right) Z_vW_v$$

核心优势

优势	说明
参数高效	仅训练~188M参数，冻结视觉编码器和LLM
灵活适配	可连接任意视觉编码器与LLM
多任务预训练	三阶段训练实现跨模态对齐

工作流程

1
视觉编码器 → 图像特征 → QFormer → 查询向量 → LLM

Comments