张芷铭的个人博客

ViT 将 Transformer 架构引入计算机视觉,通过自注意力机制捕捉全局依赖,在大规模数据集上超越传统 CNN。

核心流程

步骤说明
Patch Embedding图像切成固定大小小块(如16×16),展平后映射到向量空间
Positional Encoding添加位置编码使模型感知位置信息
Transformer Encoder多层自注意力 + 前馈网络,捕捉全局关系
Classification Head全连接层输出分类结果

优势与挑战

优势挑战
全局信息建模需大量训练数据
大规模数据表现优异高分辨率图像计算开销大
高度并行化对小数据集不如 CNN

主要变种

模型特点
DeiT知识蒸馏提升小数据集表现
Swin Transformer层次化设计 + 局部窗口注意力,降低计算复杂度

Comments