张芷铭的个人博客

视频分类为视频分配语义标签,核心挑战是时序建模、计算复杂度和标注成本。

主流方法

基于 2D CNN

帧级特征聚合:

$$P(y|v) = \frac{1}{T}\sum_{t=1}^{T}f_{\theta}(x_t)$$

代表:TSN、TRN

基于 3D CNN

3D 卷积核直接处理时空:

$$F_{out}(x,y,t) = \sum_{i,j,k} F_{in}(x+i, y+j, t+k) \cdot W(i,j,k)$$

代表:C3D、I3D、SlowFast

基于 Transformer

时序注意力建模:

$$\text{Attention}(Q,K,V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V$$

代表:TimeSformer、ViViT、Video Swin

评估指标

指标适用场景
Top-1 Accuracy单标签
Top-5 Accuracy多标签
mAP多标签

未来方向

  • 自监督学习(MoCo v3 迁移)
  • 多模态融合(音频、文本)
  • 边缘计算轻量化

Comments