SAM 2 是面向图像和视频的可提示分割基础模型,采用基于记忆的流式架构。
核心创新
| 特性 | 说明 |
|---|---|
| 统一模型 | 同时处理图像和视频 |
| PVS 任务 | 可提示视觉分割,支持点/框/掩码提示 |
| 记忆模块 | 存储目标上下文,跨帧优化分割 |
| 流式处理 | 逐帧处理,实时分割 |
架构
- 图像编码器:视觉主干
- 记忆模块:Transformer 存储/检索上下文
- 掩码解码器:生成单帧或多帧掩码
- 多模态训练:静态图像 + 视频联合训练
SA-V 数据集
| 指标 | 数值 |
|---|---|
| 视频数 | 50,900 |
| 掩码数 | 35.5M |
| 对比现有数据集 | 掩码数 53 倍 |
性能
- 视频/图像任务均超现有模型
- 交互次数减少 3 倍
- 分割速度提升 6 倍
应用
AR/VR、自动驾驶、机器人视觉、视频编辑、医疗影像。
张芷铭的个人博客
Comments