InternVideo2 通过三阶段渐进式训练框架,整合掩码视频建模、跨模态对比学习和下一 token 预测,在 70+ 视频任务上实现 SOTA。
核心方法
| 阶段 | 目标 | 技术 |
|---|
| 一:Token 重建 | 学习时空结构 | 多教师蒸馏(InternVL + VideoMAEv2) |
| 二:跨模态对齐 | 增强语义关联 | 视频-音频-语音-文本对比学习 |
| 三:Next Token | 提升推理能力 | QFormer + LLM 联合训练 |
数据集
| 数据集 | 规模 | 用途 |
|---|
| K-Mash | 2M clips | 阶段一训练 |
| InternVid2 | 50M 对 | 多模态对齐 |
| 指令微调 | MVBench + LLaVA | 对话推理 |
性能
| 任务 | 数据集 | InternVideo2 | SOTA 对比 |
|---|
| 动作识别 | Kinetics-400 | 92.1% | +2.1% vs VideoMAEv2-g |
| 视频检索 | MSR-VTT | 55.9% R@1 | +16.2% vs VideoPrism |
| 视频问答 | MVBench | 67.2% | +23.7% vs GPT-4V |
| 音频分类 | ESC-50 | 98.6% | +0.5% vs BEATs |
局限性
- 固定分辨率限制细粒度信息
- 训练成本高(256 A100 × 18 天)
- 数据集存在潜在偏差
代码:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2
Comments