I3D(Inflated 3D ConvNet)通过"膨胀"2D 卷积核到 3D,实现从图像到视频的知识迁移。
核心思想
2D 到 3D 膨胀:
$$W’{i,j,k,l,m} = \frac{W{j,k,l,m}}{N(t)}$$
确保在"静止视频"上的响应与原始 2D 网络一致。
双流架构
| 分支 | 输入 | 特征 |
|---|---|---|
| RGB 流 | 原始帧 | 空间语义 |
| 光流流 | TV-L1 光流 | 运动轨迹 |
网络改进
- 时间维度下采样延迟:保留时序信息
- 感受野控制:2×7×7 池化
- 深度监督:BN + ReLU
性能
| 数据集 | 准确率 |
|---|---|
| Kinetics | 74.2%(双流) |
| UCF-101 | 98.0%(迁移) |
| HMDB-51 | 80.9% |
扩展
- S3D:3D 卷积分解为 2D 空间 + 1D 时间
- X3D:宽度/深度/分辨率联合缩放
- Non-local:全局时空注意力
代码:https://github.com/piergiaj/pytorch-i3d
张芷铭的个人博客
Comments