张芷铭的个人博客

Panda-70M 是包含 7000 万视频-字幕对的大规模数据集,通过多模态教师模型自动生成高质量字幕。

论文:https://arxiv.org/abs/2402.19479 网站:https://snap-research.github.io/Panda-70M

核心方法

语义感知视频分割

  1. Shot boundary detection
  2. ImageBind 语义嵌入
  3. 渐入渐出镜头处理
  4. 移除重复 clips 保证多样性
  5. Max Running LPIPS 量化语义一致性

跨模态教师模型

利用文本描述、字幕和视频帧生成候选字幕。精选 8 个高效模型:

模型类型示例
Video VQAVideoLLaMA, VideoChat
自然语言VideoChat Text
Image CaptioningBLIP-2
Image VQAMiniGPT-4

细粒度检索选择

微调 UMT 模型从 8 个候选字幕中选择最佳。

学生模型

训练学生模型提取知识,降低推理成本。

实验结果

在视频字幕生成、视频文本检索、文本驱动视频生成等任务中表现优越。

Comments