张芷铭的个人博客

EfficientSAM 通过掩码图像预训练(SAMI)实现轻量级分割模型,在降低参数量的同时保持性能。

方法

SAMI 预训练

  • 基于 MAE,重建 SAM 图像编码器(ViT-H)的特征而非像素
  • 使用轻量级 ViT(Tiny/Small)学习 ViT-H 的表示

EfficientSAM

  • SAMI 预训练的编码器 + SAM 掩码解码器
  • 在 SA-1B 数据集上微调

实验

下游任务

任务数据集表现
图像分类ImageNet-1KViT 各尺寸均提升
目标检测COCO优于基线
语义分割ADE20KmIoU 显著提升
实例分割COCO/LVIS超越 MobileSAM/FastSAM

消融

  • 重建损失:MSE 优于余弦相似性
  • 掩码比例:75% 最佳
  • 微调步数:1 epoch 后性能大幅提升

Comments