Phantom 数据管道构建文本-图像-视频三元组,通过跨视频主体配对解决"复制粘贴"和多主体混淆问题。
五阶段流程
1. 数据采样与过滤
| 步骤 | 说明 |
|---|---|
| 数据源 | Panda70M + 内部资源 |
| 场景切分 | AutoShot/PySceneDetect 切割单场景 |
| 质量过滤 | 剔除低分辨率、低美学评分、低运动强度片段 |
2. Caption 生成与主体提取
- Caption 生成:Gemini 生成详细描述(外观、行为、场景)
- 主体词提取:LLM 提取带外观描述的主体词
3. 参考图像检测与对齐
| 步骤 | 方法 |
|---|---|
| 参考图像采样 | 每片段随机采样 1-2 帧 |
| 主体检测 | VLM(Qwen2.5-VL)输出检测框 |
| 对齐验证 | 确保文本主体与视觉主体对应 |
4. 跨视频主体配对(核心创新)
问题:传统 in-pair 数据导致模型复制粘贴参考图像
解决方案:跨视频配对,相似度控制在 0.3-0.9
| 相似度 | 处理 |
|---|---|
| >0.9 | 剔除(可能重复帧) |
| 0.3-0.9 | 保留(主体一致但有形变) |
| <0.3 | 剔除(不同主体) |
目的:迫使模型学习主体核心特征一致性,而非像素一致性。
5. 数据场景分割
- 场景分类:单主体、多主体交互、特定领域
- 数据补充:Subject200k、OmniGen 数据集
- 最终规模:百万级三元组,人类主体占 60%
核心价值
| 价值 | 说明 |
|---|---|
| 解决图像泄露 | 跨视频配对打破固定绑定 |
| 缓解多主体混淆 | 主体词提取 + VLM 检测对齐 |
| 支撑跨模态训练 | 输出三元组用于 Phantom 模型 |
张芷铭的个人博客
Comments