张芷铭的个人博客

SAM 2 是面向图像和视频的可提示分割基础模型,采用基于记忆的流式架构。

核心创新

特性说明
统一模型同时处理图像和视频
PVS 任务可提示视觉分割,支持点/框/掩码提示
记忆模块存储目标上下文,跨帧优化分割
流式处理逐帧处理,实时分割

架构

  • 图像编码器:视觉主干
  • 记忆模块:Transformer 存储/检索上下文
  • 掩码解码器:生成单帧或多帧掩码
  • 多模态训练:静态图像 + 视频联合训练

SA-V 数据集

指标数值
视频数50,900
掩码数35.5M
对比现有数据集掩码数 53 倍

性能

  • 视频/图像任务均超现有模型
  • 交互次数减少 3 倍
  • 分割速度提升 6 倍

应用

AR/VR、自动驾驶、机器人视觉、视频编辑、医疗影像。

Comments