张芷铭的个人博客

I3D(Inflated 3D ConvNet)通过"膨胀"2D 卷积核到 3D,实现从图像到视频的知识迁移。

核心思想

2D 到 3D 膨胀

$$W’{i,j,k,l,m} = \frac{W{j,k,l,m}}{N(t)}$$

确保在"静止视频"上的响应与原始 2D 网络一致。

双流架构

分支输入特征
RGB 流原始帧空间语义
光流流TV-L1 光流运动轨迹

网络改进

  • 时间维度下采样延迟:保留时序信息
  • 感受野控制:2×7×7 池化
  • 深度监督:BN + ReLU

性能

数据集准确率
Kinetics74.2%(双流)
UCF-10198.0%(迁移)
HMDB-5180.9%

扩展

  • S3D:3D 卷积分解为 2D 空间 + 1D 时间
  • X3D:宽度/深度/分辨率联合缩放
  • Non-local:全局时空注意力

代码:https://github.com/piergiaj/pytorch-i3d

Comments