张芷铭的个人博客

Vision Transformer(ViT)首次证明纯 Transformer 在大规模预训练下可超越 CNN,训练成本降低 2-4 倍。

研究问题

纯 Transformer 能否直接应用于图像分类,摆脱对 CNN 的依赖?

主要贡献

  1. 将图像拆分为块序列(类似词序列),直接输入标准 Transformer
  2. 大规模预训练(14M-300M 图像)下超越 CNN,训练资源减少 2-4 倍

方法

  1. 图像序列化:分割为 16×16 块,线性映射为嵌入向量
  2. 位置编码:添加可学习 1D 位置嵌入
  3. 分类机制:添加 [class] 标记,输出状态作为图像表示

关键结论

条件ViT vs CNN
大数据预训练ViT 全面超越
小数据训练ViT 弱于 ResNet(缺乏归纳偏置)

优缺点

优点

  • 计算高效:训练成本为 ResNet 的 1/2-1/4
  • 全局注意力:底层即可捕获全局信息

局限

  • 小数据泛化差
  • 自监督预训练仍有差距

应用潜力

  • 医疗影像(需优化长序列处理)
  • 多模态任务(文本-图像联合建模)

Comments