视频分类为视频分配语义标签，核心挑战是时序建模、计算复杂度和标注成本。

主流方法

基于 2D CNN

帧级特征聚合：

$P (y ∣ v) = \frac{1}{T} \sum_{t = 1}^{T} f_{θ} (x_{t})$

代表：TSN、TRN

3D 卷积核直接处理时空：

$F_{o u t} (x, y, t) = \sum_{i, j, k} F_{in} (x + i, y + j, t + k) \cdot W (i, j, k)$

代表：C3D、I3D、SlowFast

时序注意力建模：

$Attention (Q, K, V) = softmax (\frac{Q K ^{T}}{d _{k}}) V$

代表：TimeSformer、ViViT、Video Swin