张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

I3D（Inflated 3D ConvNet）通过"膨胀"2D 卷积核到 3D，实现从图像到视频的知识迁移。

核心思想

2D 到 3D 膨胀：

$$W’{i,j,k,l,m} = \frac{W{j,k,l,m}}{N(t)}$$

确保在"静止视频"上的响应与原始 2D 网络一致。

双流架构

分支	输入	特征
RGB 流	原始帧	空间语义
光流流	TV-L1 光流	运动轨迹

网络改进

时间维度下采样延迟：保留时序信息
感受野控制：2×7×7 池化
深度监督：BN + ReLU

性能

数据集	准确率
Kinetics	74.2%（双流）
UCF-101	98.0%（迁移）
HMDB-51	80.9%

扩展

S3D：3D 卷积分解为 2D 空间 + 1D 时间
X3D：宽度/深度/分辨率联合缩放
Non-local：全局时空注意力

代码：https://github.com/piergiaj/pytorch-i3d

Comments