- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

Vision Transformer（ViT）首次证明纯 Transformer 在大规模预训练下可超越 CNN，训练成本降低 2-4 倍。

研究问题

纯 Transformer 能否直接应用于图像分类，摆脱对 CNN 的依赖？

主要贡献

将图像拆分为块序列（类似词序列），直接输入标准 Transformer
大规模预训练（14M-300M 图像）下超越 CNN，训练资源减少 2-4 倍

方法

图像序列化：分割为 16×16 块，线性映射为嵌入向量
位置编码：添加可学习 1D 位置嵌入
分类机制：添加 [class] 标记，输出状态作为图像表示

关键结论

条件	ViT vs CNN
大数据预训练	ViT 全面超越
小数据训练	ViT 弱于 ResNet（缺乏归纳偏置）

优缺点

优点：

计算高效：训练成本为 ResNet 的 1/2-1/4
全局注意力：底层即可捕获全局信息

局限：

小数据泛化差
自监督预训练仍有差距

应用潜力

医疗影像（需优化长序列处理）
多模态任务（文本-图像联合建模）

Comments