VACE 支持参考转视频、视频编辑、掩码编辑等多任务,数据构建需覆盖多模态输入。
数据构建核心目标
在保证视频质量前提下,通过实例级视频分析,构建覆盖文本、图像、视频、掩码、参考等模态的训练数据。
视频预处理流程
| 步骤 | 操作 |
|---|---|
| 初步筛选 | 镜头分割,过滤低分辨率、低美学分、运动异常视频 |
| 空间过滤 | RAM + Grounding DINO 定位目标,剔除目标过大/过小视频 |
| 时序过滤 | SAM2 获取实例分割,计算有效帧比 |
| 特征提取 | 提取深度、姿态等多模态特征 |
任务定制化数据构建
可控视频生成(V2V)
- 预提取特征:深度、涂鸦、姿态、光流
- 实时生成:灰度、布局(训练时动态生成)
重绘任务(MV2V)
| 任务 | 方法 |
|---|---|
| 修复 | 随机选取实例生成掩码 |
| 扩展 | 掩码反转标记扩展区域 |
| 无条件修复 | 掩码数据增强 |
扩展任务
- 时间维度:首帧、尾帧、随机帧
- 空间维度:两端片段、局部区域
参考任务(R2V)
从视频提取人脸、物体作为参考图像,构建"参考图像-文本-目标视频"配对。
通用性保障
随机组合策略:混合各类任务数据,学习跨任务协同关系。所有掩码操作支持任意增强。
张芷铭的个人博客
Comments