3D RoPE 将传统旋转位置编码从一维扩展到三维(时间+空间),为视频 Transformer 提供时空位置感知能力。
核心原理
维度分配策略
将注意力头维度拆分为三部分:
| |
示例:hidden_size_head=192 时,时间/高度/宽度各占 64 维。
频率张量生成
| |
旋转变换
$$\text{rotated_vector} = \text{vector} \cdot \cos\theta + \text{rotate_half}(\text{vector}) \cdot \sin\theta$$
关键技术点
| 模块 | 功能 | 突破 |
|---|---|---|
| 维度分配 | 头维度拆分为 T/H/W | 均衡时空位置容量 |
| 动态坐标 | PNP 模式适配裁剪/缩放 | 灵活处理不规则输入 |
| 旋转算子 | 复数乘法等价形式 | 等距变换保留特征模长 |
| 插值外推 | 缩放位置索引 | 突破训练序列长度限制 |
视频生成价值
| 场景 | 作用 |
|---|---|
| 运动建模 | 相邻帧特征方向连续变化,学习运动一致性 |
| 分辨率泛化 | 空间旋转与像素坐标绑定,支持动态分辨率 |
| 计算高效 | 无额外参数,推理速度提升约 15% |
该设计已成为 Sora、VideoPoet 等视频生成模型的核心组件。
张芷铭的个人博客
Comments