Self Forcing 解决自回归视频扩散模型的训练-测试分布不匹配问题(exposure bias)。
研究问题
传统方法(Teacher Forcing、Diffusion Forcing)训练时依赖真实帧,推理时依赖生成帧,导致质量退化。
研究方法
Self Forcing 训练范式
- 自回归展开训练:训练阶段模拟推理过程,模型基于自身历史输出生成
- 梯度截断策略:仅对最后去噪步骤计算梯度
- 滚动 KV 缓存:固定大小窗口,O(TL) 复杂度
整体分布匹配损失
视频级损失(DMD/SiD/GAN)优化生成序列与真实数据分布对齐。
主要结论
| 指标 | 结果 |
|---|---|
| 实时生成 | 17 FPS(H100) |
| VBench 总分 | 84.31 |
| 吞吐量提升 | 4.6→16.1 FPS |
| 训练时间 | 与 TF/DF 相当(1.5h 收敛) |
创新点
- 训练-测试对齐:首次在视频扩散模型实现训练阶段自回归展开
- 混合架构:融合自回归、扩散模型、GAN 思想
- 工程优化:梯度截断 + 滚动 KV 缓存
- 新范式:并行预训练 + 序列后训练
张芷铭的个人博客
Comments