- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

VPData 与 VPBench 填补了生成式视频修复领域大规模多标注数据集的空白。构建流水线：收集 → 标注 → 分割 → 筛选 → 字幕生成。

现有数据集局限

问题	说明
规模不足	DAVIS 仅 0.4K 剪辑，YouTubeVOS 仅 4.5K
缺乏标注	无视频字幕、掩码区域描述

构建流水线

步骤 1：视频收集

从 Videvo 和 Pexels 获取约 450K 原始视频。

步骤 2：自动化标注

开放集 tagging：RAM 识别核心对象
边界框检测：Grounding DINO 定位对象
分割掩码生成：SAM2 生成像素级掩码
质量筛选：帧间面积变化率 Δ<20%，覆盖率 30%-70%

步骤 3：场景分割

PySceneDetect 检测场景切换，切割为 10 秒片段，丢弃 <6 秒片段。

步骤 4：样本选择

维度	工具	目的
美学	Laion-Aesthetic	筛选视觉效果佳
运动	RAFT 光流	避免静态冗余
安全	SD Safety Checker	过滤违规内容

步骤 5：字幕生成

CogVLM + GPT-4o 生成：

密集视频字幕：场景、对象、动作
掩码区域描述：对象属性

数据集规格

VPData（训练）

规模：390.3K 视频片段，866.7 小时，480×720
标注：分割掩码 + 视频字幕 + 掩码描述

VPBench（评估）

视频修复：100 个 6 秒视频 + 16 个长视频
视频编辑：45 个 6 秒视频 + 9 个长视频
场景：对象、人类、动物、景观、多区域掩码、随机掩码

与现有数据集对比

数据集	剪辑数	时长	视频字幕	掩码描述
DAVIS	0.4K	0.1h	❌	❌
YouTubeVOS	4.5K	5.6h	❌	❌
SA-V	642.6K	196.0h	❌	❌
VPData	390.3K	866.7h	✅	✅

Comments