VPData 与 VPBench 填补了生成式视频修复领域大规模多标注数据集的空白。构建流水线:收集 → 标注 → 分割 → 筛选 → 字幕生成。
现有数据集局限
| 问题 | 说明 |
|---|---|
| 规模不足 | DAVIS 仅 0.4K 剪辑,YouTubeVOS 仅 4.5K |
| 缺乏标注 | 无视频字幕、掩码区域描述 |
构建流水线
步骤 1:视频收集
从 Videvo 和 Pexels 获取约 450K 原始视频。
步骤 2:自动化标注
- 开放集 tagging:RAM 识别核心对象
- 边界框检测:Grounding DINO 定位对象
- 分割掩码生成:SAM2 生成像素级掩码
- 质量筛选:帧间面积变化率 Δ<20%,覆盖率 30%-70%
步骤 3:场景分割
PySceneDetect 检测场景切换,切割为 10 秒片段,丢弃 <6 秒片段。
步骤 4:样本选择
| 维度 | 工具 | 目的 |
|---|---|---|
| 美学 | Laion-Aesthetic | 筛选视觉效果佳 |
| 运动 | RAFT 光流 | 避免静态冗余 |
| 安全 | SD Safety Checker | 过滤违规内容 |
步骤 5:字幕生成
CogVLM + GPT-4o 生成:
- 密集视频字幕:场景、对象、动作
- 掩码区域描述:对象属性
数据集规格
VPData(训练)
- 规模:390.3K 视频片段,866.7 小时,480×720
- 标注:分割掩码 + 视频字幕 + 掩码描述
VPBench(评估)
- 视频修复:100 个 6 秒视频 + 16 个长视频
- 视频编辑:45 个 6 秒视频 + 9 个长视频
- 场景:对象、人类、动物、景观、多区域掩码、随机掩码
与现有数据集对比
| 数据集 | 剪辑数 | 时长 | 视频字幕 | 掩码描述 |
|---|---|---|---|---|
| DAVIS | 0.4K | 0.1h | ❌ | ❌ |
| YouTubeVOS | 4.5K | 5.6h | ❌ | ❌ |
| SA-V | 642.6K | 196.0h | ❌ | ❌ |
| VPData | 390.3K | 866.7h | ✅ | ✅ |
张芷铭的个人博客
Comments