- 张芷铭的个人博客

Panda-70M 是包含 7000 万视频-字幕对的大规模数据集，通过多模态教师模型自动生成高质量字幕。

论文：https://arxiv.org/abs/2402.19479 网站：https://snap-research.github.io/Panda-70M

核心方法

利用文本描述、字幕和视频帧生成候选字幕。精选 8 个高效模型：

微调 UMT 模型从 8 个候选字幕中选择最佳。

训练学生模型提取知识，降低推理成本。

在视频字幕生成、视频文本检索、文本驱动视频生成等任务中表现优越。