QFormer(Querying Transformer)是BLIP-2的核心组件,通过可学习的查询向量桥接视觉编码器与LLM,实现视觉-语言模态对齐。
核心架构
| 模块 | 说明 |
|---|---|
| 图像Transformer | 处理视觉特征 |
| 文本Transformer | 处理文本特征 |
| 交叉注意力层 | 视觉-语言交互 |
数学表示
给定图像特征和查询向量:
核心优势
| 优势 | 说明 |
|---|---|
| 参数高效 | 仅训练~188M参数,冻结视觉编码器和LLM |
| 灵活适配 | 可连接任意视觉编码器与LLM |
| 多任务预训练 | 三阶段训练实现跨模态对齐 |
工作流程
视觉编码器 → 图像特征 → QFormer → 查询向量 → LLM