张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

SAM 2 是面向图像和视频的可提示分割基础模型，采用基于记忆的流式架构。

核心创新

特性	说明
统一模型	同时处理图像和视频
PVS 任务	可提示视觉分割，支持点/框/掩码提示
记忆模块	存储目标上下文，跨帧优化分割
流式处理	逐帧处理，实时分割

架构

图像编码器：视觉主干
记忆模块：Transformer 存储/检索上下文
掩码解码器：生成单帧或多帧掩码
多模态训练：静态图像 + 视频联合训练

SA-V 数据集

指标	数值
视频数	50,900
掩码数	35.5M
对比现有数据集	掩码数 53 倍

性能

视频/图像任务均超现有模型
交互次数减少 3 倍
分割速度提升 6 倍

应用

AR/VR、自动驾驶、机器人视觉、视频编辑、医疗影像。

Comments