4.1. Data Construction（数据构建）部分详细总结

一、数据构建核心目标

由于VACE需支持参考转视频、视频编辑、掩码编辑等多任务，其数据需求远超传统文本-视频或图像-视频任务（仅需文本-视频配对数据）。因此，4.1节的核心目标是：在保证视频质量的前提下，通过实例级视频分析与理解，高效、快速地构建覆盖多模态输入（文本、图像、视频、掩码、参考等）的多样化训练数据，以适配VACE的多任务统一框架需求。

二、视频数据的预处理与筛选（通用流程）

为确保训练数据的有效性，研究团队首先对原始视频进行多轮过滤与实例级标注，具体流程分为4步：

初步筛选（质量与动态性过滤）
先对原始视频进行镜头分割（拆分连续镜头，避免冗余），再基于三大指标初步过滤低质量数据：
- 分辨率（剔除分辨率过低的视频）；
- 美学分数（筛选视觉效果更优的视频）；
- 运动幅度（过滤运动过于平缓或剧烈的视频，保障时空一致性学习）。
目标区域筛选（空间维度过滤）
对初步筛选后视频的第一帧进行处理：
- 用RAM（Recognize Anything Model） 进行标签标注，结合Grounding DINO（目标检测模型）定位视频中的核心目标；
- 二次过滤：剔除目标区域过大（占比过高导致画面失衡）或过小（模型难以学习特征）的视频。
实例级时序筛选（时间维度过滤）
利用SAM2（Segment Anything Model 2） 的视频分割能力，获取视频全时序的实例级分割信息（如人物、物体在每帧中的位置掩码）；
通过计算“有效帧比”（目标实例在视频中清晰可见的帧数占比），在时间维度过滤目标实例不稳定（如频繁遮挡、快速消失）的视频。
多模态特征提取与增强
对最终保留的视频，提取或生成多任务所需的模态特征（如深度、姿态等），为后续任务定制化构建奠定基础。

三、针对不同任务的定制化数据构建策略

为适配VACE的四大基础任务（T2V/R2V/V2V/MV2V），研究团队针对各类任务的特性，设计了差异化的数据构建方案：

1. 可控视频生成任务（V2V子任务）

针对需“控制信号引导”的视频编辑任务（如深度控制、姿态控制、上色等），数据构建方式分为两类：

预提取特征：对筛选后的视频，提前离线提取深度图（Depth）、涂鸦（Scribble）、人体姿态（Pose）、光流（Optical Flow） 等控制信号，构建“原始视频-控制信号-文本提示”的配对数据；
实时生成特征：对于灰度（Gray） 和布局（Layout） 任务，不提前构建专用数据集，而是在训练过程中动态生成（create data on the fly） 所需输入（如实时将彩色视频转为灰度视频，或根据文本提示生成对应布局图）。

2. 重绘任务（MV2V子任务：修复与扩展）

针对视频修复（Inpainting）和扩展（Outpainting），通过“掩码操作”灵活构建数据：

修复数据：随机选取视频中的实例（如物体、人物），生成对应掩码（标记需修复区域），构建“视频-掩码-修复目标文本”数据；
扩展数据：将修复任务的掩码反转（标记需扩展的画布区域），即可构建扩展任务数据；
无条件修复：对掩码进行数据增强（如随机调整掩码形状、大小），构建无条件修复任务的泛化数据。

3. 扩展任务（MV2V子任务：时间/空间扩展）

为支持“视频首帧扩展、尾帧扩展、片段扩展”等多种需求，提取视频中的关键帧作为扩展起点，包括：

时间维度：首帧、尾帧、随机帧；
空间维度：两端片段、局部区域帧，构建“关键帧-扩展目标文本”配对数据。

4. 参考任务（R2V子任务）

针对“基于参考图像生成视频”的需求，构建包含特定主体的配对数据：

从筛选后的视频中提取人脸、物体等实例作为参考图像；
对参考图像进行离线或在线增强（如旋转、缩放、亮度调整），构建“参考图像-文本提示-目标视频”的配对数据。

四、数据构建的通用性保障

为适配VACE的“任务组合”能力，研究团队在数据构建的最后阶段加入了随机组合策略：将上述各类任务的训练数据随机混合，使模型能学习跨任务的协同关系（如“参考图像+掩码修复”“灰度视频+空间扩展”等组合任务）；同时，对所有涉及掩码的操作均进行“任意增强”，以满足不同粒度的局部生成需求。