视频分类为视频分配语义标签,核心挑战是时序建模、计算复杂度和标注成本。
主流方法
基于 2D CNN
帧级特征聚合:
$$P(y|v) = \frac{1}{T}\sum_{t=1}^{T}f_{\theta}(x_t)$$
代表:TSN、TRN
基于 3D CNN
3D 卷积核直接处理时空:
$$F_{out}(x,y,t) = \sum_{i,j,k} F_{in}(x+i, y+j, t+k) \cdot W(i,j,k)$$
代表:C3D、I3D、SlowFast
基于 Transformer
时序注意力建模:
$$\text{Attention}(Q,K,V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$$
代表:TimeSformer、ViViT、Video Swin
评估指标
| 指标 | 适用场景 |
|---|---|
| Top-1 Accuracy | 单标签 |
| Top-5 Accuracy | 多标签 |
| mAP | 多标签 |
未来方向
- 自监督学习(MoCo v3 迁移)
- 多模态融合(音频、文本)
- 边缘计算轻量化
张芷铭的个人博客
Comments