张芷铭的个人博客

Vision Transformer (ViT) 将图像分割为 patch 序列,使用纯 Transformer 架构进行视觉任务处理。

模型规格

变体参数量适用场景
ViT-Huge632M大规模预训练
ViT-Large307M高性能需求
ViT-Base86M通用场景
ViT-Small/DeiT-Small22M轻量部署
ViT-Tiny/DeiT-Tiny5M边缘设备

ViT 与卷积融合

MobileViT 首次探索 ViT 与卷积结合,后续工作包括:

  • LeViT:混合架构优化推理速度
  • EfficientFormer:高效特征提取
  • Next-ViT:下一代视觉 Transformer
  • Tiny-ViT:轻量级设计
  • EfficientViT:效率优化

Comments