EfficientSAM 通过掩码图像预训练(SAMI)实现轻量级分割模型,在降低参数量的同时保持性能。
方法
SAMI 预训练:
- 基于 MAE,重建 SAM 图像编码器(ViT-H)的特征而非像素
- 使用轻量级 ViT(Tiny/Small)学习 ViT-H 的表示
EfficientSAM:
- SAMI 预训练的编码器 + SAM 掩码解码器
- 在 SA-1B 数据集上微调
实验
下游任务:
| 任务 | 数据集 | 表现 |
|---|---|---|
| 图像分类 | ImageNet-1K | ViT 各尺寸均提升 |
| 目标检测 | COCO | 优于基线 |
| 语义分割 | ADE20K | mIoU 显著提升 |
| 实例分割 | COCO/LVIS | 超越 MobileSAM/FastSAM |
消融
- 重建损失:MSE 优于余弦相似性
- 掩码比例:75% 最佳
- 微调步数:1 epoch 后性能大幅提升
张芷铭的个人博客
Comments