Vision Transformer (ViT) 将图像分割为 patch 序列,使用纯 Transformer 架构进行视觉任务处理。
模型规格
| 变体 | 参数量 | 适用场景 |
|---|---|---|
| ViT-Huge | 632M | 大规模预训练 |
| ViT-Large | 307M | 高性能需求 |
| ViT-Base | 86M | 通用场景 |
| ViT-Small/DeiT-Small | 22M | 轻量部署 |
| ViT-Tiny/DeiT-Tiny | 5M | 边缘设备 |
ViT 与卷积融合
MobileViT 首次探索 ViT 与卷积结合,后续工作包括:
- LeViT:混合架构优化推理速度
- EfficientFormer:高效特征提取
- Next-ViT:下一代视觉 Transformer
- Tiny-ViT:轻量级设计
- EfficientViT:效率优化
张芷铭的个人博客
Comments