张芷铭的个人博客

VPData 与 VPBench 填补了生成式视频修复领域大规模多标注数据集的空白。构建流水线:收集 → 标注 → 分割 → 筛选 → 字幕生成。

现有数据集局限

问题说明
规模不足DAVIS 仅 0.4K 剪辑,YouTubeVOS 仅 4.5K
缺乏标注无视频字幕、掩码区域描述

构建流水线

步骤 1:视频收集

从 Videvo 和 Pexels 获取约 450K 原始视频

步骤 2:自动化标注

  1. 开放集 tagging:RAM 识别核心对象
  2. 边界框检测:Grounding DINO 定位对象
  3. 分割掩码生成:SAM2 生成像素级掩码
  4. 质量筛选:帧间面积变化率 Δ<20%,覆盖率 30%-70%

步骤 3:场景分割

PySceneDetect 检测场景切换,切割为 10 秒片段,丢弃 <6 秒片段。

步骤 4:样本选择

维度工具目的
美学Laion-Aesthetic筛选视觉效果佳
运动RAFT 光流避免静态冗余
安全SD Safety Checker过滤违规内容

步骤 5:字幕生成

CogVLM + GPT-4o 生成:

  • 密集视频字幕:场景、对象、动作
  • 掩码区域描述:对象属性

数据集规格

VPData(训练)

  • 规模:390.3K 视频片段,866.7 小时,480×720
  • 标注:分割掩码 + 视频字幕 + 掩码描述

VPBench(评估)

  • 视频修复:100 个 6 秒视频 + 16 个长视频
  • 视频编辑:45 个 6 秒视频 + 9 个长视频
  • 场景:对象、人类、动物、景观、多区域掩码、随机掩码

与现有数据集对比

数据集剪辑数时长视频字幕掩码描述
DAVIS0.4K0.1h
YouTubeVOS4.5K5.6h
SA-V642.6K196.0h
VPData390.3K866.7h

Comments