- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

ViT 将 Transformer 架构引入计算机视觉，通过自注意力机制捕捉全局依赖，在大规模数据集上超越传统 CNN。

核心流程

步骤	说明
Patch Embedding	图像切成固定大小小块（如16×16），展平后映射到向量空间
Positional Encoding	添加位置编码使模型感知位置信息
Transformer Encoder	多层自注意力 + 前馈网络，捕捉全局关系
Classification Head	全连接层输出分类结果

优势与挑战

优势	挑战
全局信息建模	需大量训练数据
大规模数据表现优异	高分辨率图像计算开销大
高度并行化	对小数据集不如 CNN

主要变种

模型	特点
DeiT	知识蒸馏提升小数据集表现
Swin Transformer	层次化设计 + 局部窗口注意力，降低计算复杂度

Comments