QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。
核心架构
| 模块 | 说明 |
|---|---|
| 图像Transformer | 处理视觉特征 |
| 文本Transformer | 处理文本特征 |
| 交叉注意力层 | 视觉-语言交互 |
数学表示
给定图像特征$Z_v$和查询向量$Q$:
$$\text{CrossAttn}(Q, Z_v) = \text{softmax}\left(\frac{QW_q (Z_vW_k)^T}{\sqrt{d}}\right) Z_vW_v$$
核心优势
| 优势 | 说明 |
|---|---|
| 参数高效 | 仅训练~188M参数,冻结视觉编码器和LLM |
| 灵活适配 | 可连接任意视觉编码器与LLM |
| 多任务预训练 | 三阶段训练实现跨模态对齐 |
工作流程
| |
张芷铭的个人博客
Comments