张芷铭的个人博客

InternVideo2 通过三阶段渐进式训练框架,整合掩码视频建模、跨模态对比学习和下一 token 预测,在 70+ 视频任务上实现 SOTA。

核心方法

阶段目标技术
一:Token 重建学习时空结构多教师蒸馏(InternVL + VideoMAEv2)
二:跨模态对齐增强语义关联视频-音频-语音-文本对比学习
三:Next Token提升推理能力QFormer + LLM 联合训练

数据集

数据集规模用途
K-Mash2M clips阶段一训练
InternVid250M 对多模态对齐
指令微调MVBench + LLaVA对话推理

性能

任务数据集InternVideo2SOTA 对比
动作识别Kinetics-40092.1%+2.1% vs VideoMAEv2-g
视频检索MSR-VTT55.9% R@1+16.2% vs VideoPrism
视频问答MVBench67.2%+23.7% vs GPT-4V
音频分类ESC-5098.6%+0.5% vs BEATs

局限性

  • 固定分辨率限制细粒度信息
  • 训练成本高(256 A100 × 18 天)
  • 数据集存在潜在偏差

代码:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2

Comments