Panda-70M 是包含 7000 万视频-字幕对的大规模数据集,通过多模态教师模型自动生成高质量字幕。
论文:https://arxiv.org/abs/2402.19479 网站:https://snap-research.github.io/Panda-70M
核心方法
语义感知视频分割
- Shot boundary detection
- ImageBind 语义嵌入
- 渐入渐出镜头处理
- 移除重复 clips 保证多样性
- Max Running LPIPS 量化语义一致性
跨模态教师模型
利用文本描述、字幕和视频帧生成候选字幕。精选 8 个高效模型:
| 模型类型 | 示例 |
|---|---|
| Video VQA | VideoLLaMA, VideoChat |
| 自然语言 | VideoChat Text |
| Image Captioning | BLIP-2 |
| Image VQA | MiniGPT-4 |
细粒度检索选择
微调 UMT 模型从 8 个候选字幕中选择最佳。
学生模型
训练学生模型提取知识,降低推理成本。
实验结果
在视频字幕生成、视频文本检索、文本驱动视频生成等任务中表现优越。
张芷铭的个人博客
Comments