张芷铭的个人博客

SAM(Segment Anything Model)是 Meta 推出的图像分割基础模型,通过可提示分割实现零样本泛化。

核心问题

  1. 什么任务能实现零样本泛化?
  2. 对应的模型架构是什么?
  3. 什么数据支撑该任务和模型?

任务定义

可提示分割:给定任何提示(点、框、文本),生成有效分割掩码。

模型架构

SAM 由三部分组成:

组件功能
图像编码器ViT 生成图像嵌入
提示编码器编码点/框/文本提示
掩码解码器生成分割掩码

数据引擎

阶段方式数据量
辅助手动标注人工 brush/eraser 修改4.3M masks
半自动标注FastRCNN 检测 + 人工修正5.9M masks
全自动标注32×32 点网格 + NMS1.1B masks

SA-1B 数据集

  • 11M 高分辨率图像
  • 1.1B 高质量分割掩码
  • 迄今最大分割数据集

评估结果

  • 在 23 个数据集上零样本表现优异
  • 单点有效掩码评估超越基准
  • 边缘检测、实例分割任务表现出色

Comments