SAM(Segment Anything Model)是 Meta 推出的图像分割基础模型,通过可提示分割实现零样本泛化。
核心问题
- 什么任务能实现零样本泛化?
- 对应的模型架构是什么?
- 什么数据支撑该任务和模型?
任务定义
可提示分割:给定任何提示(点、框、文本),生成有效分割掩码。
模型架构
SAM 由三部分组成:
| 组件 | 功能 |
|---|---|
| 图像编码器 | ViT 生成图像嵌入 |
| 提示编码器 | 编码点/框/文本提示 |
| 掩码解码器 | 生成分割掩码 |
数据引擎
| 阶段 | 方式 | 数据量 |
|---|---|---|
| 辅助手动标注 | 人工 brush/eraser 修改 | 4.3M masks |
| 半自动标注 | FastRCNN 检测 + 人工修正 | 5.9M masks |
| 全自动标注 | 32×32 点网格 + NMS | 1.1B masks |
SA-1B 数据集
- 11M 高分辨率图像
- 1.1B 高质量分割掩码
- 迄今最大分割数据集
评估结果
- 在 23 个数据集上零样本表现优异
- 单点有效掩码评估超越基准
- 边缘检测、实例分割任务表现出色
张芷铭的个人博客
Comments