张芷铭的个人博客

Segment Anything(SA)项目创建图像分割基础模型,包含可提示分割任务、SAM 模型和 SA-1B 数据集。

核心组件

组件内容
任务可提示分割(点、框、文本等提示)
模型SAM(图像编码器 + 提示编码器 + 掩码解码器)
数据SA-1B(11M 图像,1.1B 掩码)

SAM 架构

  1. Image Encoder:MAE 预训练的 ViT
  2. Prompt Encoder:编码点、框、文本提示
  3. Mask Decoder:生成分割掩码

数据引擎

阶段方式掩码数
辅助手动人工修改模型建议4.3M
半自动检测器引导多样性5.9M
全自动点网格 + NMS1.1B

特点

  • 零样本泛化:在 23 个数据集上表现优异
  • 实时交互:支持灵活提示,实时生成掩码
  • 多义性处理:一个提示可生成多个有效掩码

应用

  • 边缘检测
  • 对象提议生成
  • 实例分割
  • 下游任务视觉编码器

Comments