Segment Anything(SA)项目创建图像分割基础模型,包含可提示分割任务、SAM 模型和 SA-1B 数据集。
核心组件
| 组件 | 内容 |
|---|---|
| 任务 | 可提示分割(点、框、文本等提示) |
| 模型 | SAM(图像编码器 + 提示编码器 + 掩码解码器) |
| 数据 | SA-1B(11M 图像,1.1B 掩码) |
SAM 架构
- Image Encoder:MAE 预训练的 ViT
- Prompt Encoder:编码点、框、文本提示
- Mask Decoder:生成分割掩码
数据引擎
| 阶段 | 方式 | 掩码数 |
|---|---|---|
| 辅助手动 | 人工修改模型建议 | 4.3M |
| 半自动 | 检测器引导多样性 | 5.9M |
| 全自动 | 点网格 + NMS | 1.1B |
特点
- 零样本泛化:在 23 个数据集上表现优异
- 实时交互:支持灵活提示,实时生成掩码
- 多义性处理:一个提示可生成多个有效掩码
应用
- 边缘检测
- 对象提议生成
- 实例分割
- 下游任务视觉编码器
张芷铭的个人博客
Comments