张芷铭的个人博客

Self Forcing 解决自回归视频扩散模型的训练-测试分布不匹配问题(exposure bias)。

研究问题

传统方法(Teacher Forcing、Diffusion Forcing)训练时依赖真实帧,推理时依赖生成帧,导致质量退化。

研究方法

Self Forcing 训练范式

  • 自回归展开训练:训练阶段模拟推理过程,模型基于自身历史输出生成
  • 梯度截断策略:仅对最后去噪步骤计算梯度
  • 滚动 KV 缓存:固定大小窗口,O(TL) 复杂度

整体分布匹配损失

视频级损失(DMD/SiD/GAN)优化生成序列与真实数据分布对齐。

主要结论

指标结果
实时生成17 FPS(H100)
VBench 总分84.31
吞吐量提升4.6→16.1 FPS
训练时间与 TF/DF 相当(1.5h 收敛)

创新点

  1. 训练-测试对齐:首次在视频扩散模型实现训练阶段自回归展开
  2. 混合架构:融合自回归、扩散模型、GAN 思想
  3. 工程优化:梯度截断 + 滚动 KV 缓存
  4. 新范式:并行预训练 + 序列后训练

Comments