ViT 将 Transformer 架构引入计算机视觉,通过自注意力机制捕捉全局依赖,在大规模数据集上超越传统 CNN。
核心流程
| 步骤 | 说明 |
|---|---|
| Patch Embedding | 图像切成固定大小小块(如16×16),展平后映射到向量空间 |
| Positional Encoding | 添加位置编码使模型感知位置信息 |
| Transformer Encoder | 多层自注意力 + 前馈网络,捕捉全局关系 |
| Classification Head | 全连接层输出分类结果 |
优势与挑战
| 优势 | 挑战 |
|---|---|
| 全局信息建模 | 需大量训练数据 |
| 大规模数据表现优异 | 高分辨率图像计算开销大 |
| 高度并行化 | 对小数据集不如 CNN |
主要变种
| 模型 | 特点 |
|---|---|
| DeiT | 知识蒸馏提升小数据集表现 |
| Swin Transformer | 层次化设计 + 局部窗口注意力,降低计算复杂度 |
张芷铭的个人博客
Comments