张芷铭的个人博客

📅 0001-01-01

SAM（Segment Anything Model）是 Meta 推出的图像分割基础模型，通过可提示分割实现零样本泛化。

核心问题

什么任务能实现零样本泛化？
对应的模型架构是什么？
什么数据支撑该任务和模型？

任务定义

可提示分割：给定任何提示（点、框、文本），生成有效分割掩码。

模型架构

SAM 由三部分组成：

组件	功能
图像编码器	ViT 生成图像嵌入
提示编码器	编码点/框/文本提示
掩码解码器	生成分割掩码

数据引擎

阶段	方式	数据量
辅助手动标注	人工 brush/eraser 修改	4.3M masks
半自动标注	FastRCNN 检测 + 人工修正	5.9M masks
全自动标注	32×32 点网格 + NMS	1.1B masks

SA-1B 数据集

11M 高分辨率图像
1.1B 高质量分割掩码
迄今最大分割数据集

评估结果

在 23 个数据集上零样本表现优异
单点有效掩码评估超越基准
边缘检测、实例分割任务表现出色

Comments