张芷铭的个人博客

📅 2026-02-26

#transformer #ai #deep-learning #machine-learning

Vision Transformer (ViT) 将图像分割为 patch 序列，使用纯 Transformer 架构进行视觉任务处理。

模型规格

变体	参数量	适用场景
ViT-Huge	632M	大规模预训练
ViT-Large	307M	高性能需求
ViT-Base	86M	通用场景
ViT-Small/DeiT-Small	22M	轻量部署
ViT-Tiny/DeiT-Tiny	5M	边缘设备

ViT 与卷积融合

MobileViT 首次探索 ViT 与卷积结合，后续工作包括：

LeViT：混合架构优化推理速度
EfficientFormer：高效特征提取
Next-ViT：下一代视觉 Transformer
Tiny-ViT：轻量级设计
EfficientViT：效率优化

Comments