- 张芷铭的个人博客

张芷铭的个人博客

📅 0001-01-01

VACE 数据构建核心：实例级视频分析，支持多任务统一框架（T2V/R2V/V2V/MV2V）。

预处理与筛选流程

1. 初步筛选

镜头分割（避免冗余）
过滤指标：分辨率、美学分数、运动幅度

2. 目标区域筛选

RAM 标注 + Grounding DINO 定位核心目标
过滤目标过大/过小的视频

3. 实例级时序筛选

SAM2 获取全时序分割信息
计算有效帧比，过滤实例不稳定视频

4. 多模态特征提取

提取深度、姿态等控制信号。

任务定制化构建

可控视频生成（V2V）

特征类型	方式
深度、涂鸦、姿态、光流	预提取
灰度、布局	实时动态生成

重绘任务（MV2V）

修复：随机选取实例生成掩码
扩展：反转掩码标记扩展区域
无条件修复：掩码数据增强

扩展任务（MV2V）

提取关键帧作为扩展起点：

时间维度：首帧、尾帧、随机帧
空间维度：两端片段、局部区域帧

参考任务（R2V）

提取人脸、物体作为参考图像
离线/在线增强构建配对数据

通用性保障

随机组合策略混合各类任务数据，支持跨任务协同（如"参考图像+掩码修复"）。

Comments