4.1. Data Construction(数据构建)部分详细总结
一、数据构建核心目标
由于VACE需支持参考转视频、视频编辑、掩码编辑等多任务,其数据需求远超传统文本-视频或图像-视频任务(仅需文本-视频配对数据)。因此,4.1节的核心目标是:在保证视频质量的前提下,通过实例级视频分析与理解,高效、快速地构建覆盖多模态输入(文本、图像、视频、掩码、参考等)的多样化训练数据,以适配VACE的多任务统一框架需求。
二、视频数据的预处理与筛选(通用流程)
为确保训练数据的有效性,研究团队首先对原始视频进行多轮过滤与实例级标注,具体流程分为4步:
初步筛选(质量与动态性过滤)
先对原始视频进行镜头分割(拆分连续镜头,避免冗余),再基于三大指标初步过滤低质量数据:- 分辨率(剔除分辨率过低的视频);
- 美学分数(筛选视觉效果更优的视频);
- 运动幅度(过滤运动过于平缓或剧烈的视频,保障时空一致性学习)。
目标区域筛选(空间维度过滤)
对初步筛选后视频的第一帧进行处理:- 用RAM(Recognize Anything Model) 进行标签标注,结合Grounding DINO(目标检测模型)定位视频中的核心目标;
- 二次过滤:剔除目标区域过大(占比过高导致画面失衡)或过小(模型难以学习特征)的视频。
实例级时序筛选(时间维度过滤)
利用SAM2(Segment Anything Model 2) 的视频分割能力,获取视频全时序的实例级分割信息(如人物、物体在每帧中的位置掩码);
通过计算“有效帧比”(目标实例在视频中清晰可见的帧数占比),在时间维度过滤目标实例不稳定(如频繁遮挡、快速消失)的视频。多模态特征提取与增强
对最终保留的视频,提取或生成多任务所需的模态特征(如深度、姿态等),为后续任务定制化构建奠定基础。
三、针对不同任务的定制化数据构建策略
为适配VACE的四大基础任务(T2V/R2V/V2V/MV2V),研究团队针对各类任务的特性,设计了差异化的数据构建方案:
1. 可控视频生成任务(V2V子任务)
针对需“控制信号引导”的视频编辑任务(如深度控制、姿态控制、上色等),数据构建方式分为两类:
- 预提取特征:对筛选后的视频,提前离线提取深度图(Depth)、涂鸦(Scribble)、人体姿态(Pose)、光流(Optical Flow) 等控制信号,构建“原始视频-控制信号-文本提示”的配对数据;
- 实时生成特征:对于灰度(Gray) 和布局(Layout) 任务,不提前构建专用数据集,而是在训练过程中动态生成(create data on the fly) 所需输入(如实时将彩色视频转为灰度视频,或根据文本提示生成对应布局图)。
2. 重绘任务(MV2V子任务:修复与扩展)
针对视频修复(Inpainting)和扩展(Outpainting),通过“掩码操作”灵活构建数据:
- 修复数据:随机选取视频中的实例(如物体、人物),生成对应掩码(标记需修复区域),构建“视频-掩码-修复目标文本”数据;
- 扩展数据:将修复任务的掩码反转(标记需扩展的画布区域),即可构建扩展任务数据;
- 无条件修复:对掩码进行数据增强(如随机调整掩码形状、大小),构建无条件修复任务的泛化数据。
3. 扩展任务(MV2V子任务:时间/空间扩展)
为支持“视频首帧扩展、尾帧扩展、片段扩展”等多种需求,提取视频中的关键帧作为扩展起点,包括:
- 时间维度:首帧、尾帧、随机帧;
- 空间维度:两端片段、局部区域帧,构建“关键帧-扩展目标文本”配对数据。
4. 参考任务(R2V子任务)
针对“基于参考图像生成视频”的需求,构建包含特定主体的配对数据:
- 从筛选后的视频中提取人脸、物体等实例作为参考图像;
- 对参考图像进行离线或在线增强(如旋转、缩放、亮度调整),构建“参考图像-文本提示-目标视频”的配对数据。
四、数据构建的通用性保障
为适配VACE的“任务组合”能力,研究团队在数据构建的最后阶段加入了随机组合策略:将上述各类任务的训练数据随机混合,使模型能学习跨任务的协同关系(如“参考图像+掩码修复”“灰度视频+空间扩展”等组合任务);同时,对所有涉及掩码的操作均进行“任意增强”,以满足不同粒度的局部生成需求。
💬 评论