张芷铭的个人博客

Phantom 数据管道构建文本-图像-视频三元组,通过跨视频主体配对解决"复制粘贴"和多主体混淆问题。

五阶段流程

1. 数据采样与过滤

步骤说明
数据源Panda70M + 内部资源
场景切分AutoShot/PySceneDetect 切割单场景
质量过滤剔除低分辨率、低美学评分、低运动强度片段

2. Caption 生成与主体提取

  • Caption 生成:Gemini 生成详细描述(外观、行为、场景)
  • 主体词提取:LLM 提取带外观描述的主体词

3. 参考图像检测与对齐

步骤方法
参考图像采样每片段随机采样 1-2 帧
主体检测VLM(Qwen2.5-VL)输出检测框
对齐验证确保文本主体与视觉主体对应

4. 跨视频主体配对(核心创新)

问题:传统 in-pair 数据导致模型复制粘贴参考图像

解决方案:跨视频配对,相似度控制在 0.3-0.9

相似度处理
>0.9剔除(可能重复帧)
0.3-0.9保留(主体一致但有形变)
<0.3剔除(不同主体)

目的:迫使模型学习主体核心特征一致性,而非像素一致性。

5. 数据场景分割

  • 场景分类:单主体、多主体交互、特定领域
  • 数据补充:Subject200k、OmniGen 数据集
  • 最终规模:百万级三元组,人类主体占 60%

核心价值

价值说明
解决图像泄露跨视频配对打破固定绑定
缓解多主体混淆主体词提取 + VLM 检测对齐
支撑跨模态训练输出三元组用于 Phantom 模型

Comments