张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

Phantom 数据管道构建文本-图像-视频三元组，通过跨视频主体配对解决"复制粘贴"和多主体混淆问题。

五阶段流程

1. 数据采样与过滤

步骤	说明
数据源	Panda70M + 内部资源
场景切分	AutoShot/PySceneDetect 切割单场景
质量过滤	剔除低分辨率、低美学评分、低运动强度片段

2. Caption 生成与主体提取

Caption 生成：Gemini 生成详细描述（外观、行为、场景）
主体词提取：LLM 提取带外观描述的主体词

3. 参考图像检测与对齐

步骤	方法
参考图像采样	每片段随机采样 1-2 帧
主体检测	VLM（Qwen2.5-VL）输出检测框
对齐验证	确保文本主体与视觉主体对应

4. 跨视频主体配对（核心创新）

问题：传统 in-pair 数据导致模型复制粘贴参考图像

解决方案：跨视频配对，相似度控制在 0.3-0.9

相似度	处理
>0.9	剔除（可能重复帧）
0.3-0.9	保留（主体一致但有形变）
<0.3	剔除（不同主体）

目的：迫使模型学习主体核心特征一致性，而非像素一致性。

5. 数据场景分割

场景分类：单主体、多主体交互、特定领域
数据补充：Subject200k、OmniGen 数据集
最终规模：百万级三元组，人类主体占 60%

核心价值

价值	说明
解决图像泄露	跨视频配对打破固定绑定
缓解多主体混淆	主体词提取 + VLM 检测对齐
支撑跨模态训练	输出三元组用于 Phantom 模型

Comments