张芷铭的个人博客

VACE 支持参考转视频、视频编辑、掩码编辑等多任务,数据构建需覆盖多模态输入。

数据构建核心目标

在保证视频质量前提下,通过实例级视频分析,构建覆盖文本、图像、视频、掩码、参考等模态的训练数据。

视频预处理流程

步骤操作
初步筛选镜头分割,过滤低分辨率、低美学分、运动异常视频
空间过滤RAM + Grounding DINO 定位目标,剔除目标过大/过小视频
时序过滤SAM2 获取实例分割,计算有效帧比
特征提取提取深度、姿态等多模态特征

任务定制化数据构建

可控视频生成(V2V)

  • 预提取特征:深度、涂鸦、姿态、光流
  • 实时生成:灰度、布局(训练时动态生成)

重绘任务(MV2V)

任务方法
修复随机选取实例生成掩码
扩展掩码反转标记扩展区域
无条件修复掩码数据增强

扩展任务

  • 时间维度:首帧、尾帧、随机帧
  • 空间维度:两端片段、局部区域

参考任务(R2V)

从视频提取人脸、物体作为参考图像,构建"参考图像-文本-目标视频"配对。

通用性保障

随机组合策略:混合各类任务数据,学习跨任务协同关系。所有掩码操作支持任意增强。

Comments