张芷铭的个人博客

VACE 数据构建核心:实例级视频分析,支持多任务统一框架(T2V/R2V/V2V/MV2V)。

预处理与筛选流程

1. 初步筛选

  • 镜头分割(避免冗余)
  • 过滤指标:分辨率、美学分数、运动幅度

2. 目标区域筛选

  • RAM 标注 + Grounding DINO 定位核心目标
  • 过滤目标过大/过小的视频

3. 实例级时序筛选

  • SAM2 获取全时序分割信息
  • 计算有效帧比,过滤实例不稳定视频

4. 多模态特征提取

提取深度、姿态等控制信号。

任务定制化构建

可控视频生成(V2V)

特征类型方式
深度、涂鸦、姿态、光流预提取
灰度、布局实时动态生成

重绘任务(MV2V)

  • 修复:随机选取实例生成掩码
  • 扩展:反转掩码标记扩展区域
  • 无条件修复:掩码数据增强

扩展任务(MV2V)

提取关键帧作为扩展起点:

  • 时间维度:首帧、尾帧、随机帧
  • 空间维度:两端片段、局部区域帧

参考任务(R2V)

  • 提取人脸、物体作为参考图像
  • 离线/在线增强构建配对数据

通用性保障

随机组合策略混合各类任务数据,支持跨任务协同(如"参考图像+掩码修复")。

Comments