视频分类为视频分配语义标签,核心挑战是时序建模、计算复杂度和标注成本。

主流方法

基于 2D CNN

帧级特征聚合:

代表:TSN、TRN

基于 3D CNN

3D 卷积核直接处理时空:

代表:C3D、I3D、SlowFast

基于 Transformer

时序注意力建模:

代表:TimeSformer、ViViT、Video Swin

评估指标

指标适用场景
Top-1 Accuracy单标签
Top-5 Accuracy多标签
mAP多标签

未来方向

  • 自监督学习(MoCo v3 迁移)
  • 多模态融合(音频、文本)
  • 边缘计算轻量化