VACE 数据构建核心:实例级视频分析,支持多任务统一框架(T2V/R2V/V2V/MV2V)。
预处理与筛选流程
1. 初步筛选
- 镜头分割(避免冗余)
- 过滤指标:分辨率、美学分数、运动幅度
2. 目标区域筛选
- RAM 标注 + Grounding DINO 定位核心目标
- 过滤目标过大/过小的视频
3. 实例级时序筛选
- SAM2 获取全时序分割信息
- 计算有效帧比,过滤实例不稳定视频
4. 多模态特征提取
提取深度、姿态等控制信号。
任务定制化构建
可控视频生成(V2V)
| 特征类型 | 方式 |
|---|---|
| 深度、涂鸦、姿态、光流 | 预提取 |
| 灰度、布局 | 实时动态生成 |
重绘任务(MV2V)
- 修复:随机选取实例生成掩码
- 扩展:反转掩码标记扩展区域
- 无条件修复:掩码数据增强
扩展任务(MV2V)
提取关键帧作为扩展起点:
- 时间维度:首帧、尾帧、随机帧
- 空间维度:两端片段、局部区域帧
参考任务(R2V)
- 提取人脸、物体作为参考图像
- 离线/在线增强构建配对数据
通用性保障
随机组合策略混合各类任务数据,支持跨任务协同(如"参考图像+掩码修复")。
张芷铭的个人博客
Comments