视频分类为视频分配语义标签，核心挑战是时序建模、计算复杂度和标注成本。

主流方法

基于 2D CNN

帧级特征聚合：

$$P(y|v) = \frac{1}{T}\sum_{t=1}^{T}f_{\theta}(x_t)$$

代表：TSN、TRN

3D 卷积核直接处理时空：

$$F_{out}(x,y,t) = \sum_{i,j,k} F_{in}(x+i, y+j, t+k) \cdot W(i,j,k)$$

代表：C3D、I3D、SlowFast

时序注意力建模：

$$\text{Attention}(Q,K,V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$$

代表：TimeSformer、ViViT、Video Swin