张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

Segment Anything（SA）项目创建图像分割基础模型，包含可提示分割任务、SAM 模型和 SA-1B 数据集。

核心组件

组件	内容
任务	可提示分割（点、框、文本等提示）
模型	SAM（图像编码器 + 提示编码器 + 掩码解码器）
数据	SA-1B（11M 图像，1.1B 掩码）

SAM 架构

Image Encoder：MAE 预训练的 ViT
Prompt Encoder：编码点、框、文本提示
Mask Decoder：生成分割掩码

数据引擎

阶段	方式	掩码数
辅助手动	人工修改模型建议	4.3M
半自动	检测器引导多样性	5.9M
全自动	点网格 + NMS	1.1B

特点

零样本泛化：在 23 个数据集上表现优异
实时交互：支持灵活提示，实时生成掩码
多义性处理：一个提示可生成多个有效掩码

应用

边缘检测
对象提议生成
实例分割
下游任务视觉编码器

Comments