InternVideo2 通过三阶段渐进式训练框架，整合掩码视频建模、跨模态对比学习和下一 token 预测，在 70+ 视频任务上实现 SOTA。

核心方法

数据集

任务	数据集	InternVideo2	SOTA 对比
动作识别	Kinetics-400	92.1%	+2.1% vs VideoMAEv2-g
视频检索	MSR-VTT	55.9% R@1	+16.2% vs VideoPrism
视频问答	MVBench	67.2%	+23.7% vs GPT-4V
音频分类	ESC-50	98.6%	+0.5% vs BEATs

代码：https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2