张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

Self Forcing 解决自回归视频扩散模型的训练-测试分布不匹配问题（exposure bias）。

研究问题

传统方法（Teacher Forcing、Diffusion Forcing）训练时依赖真实帧，推理时依赖生成帧，导致质量退化。

研究方法

Self Forcing 训练范式

自回归展开训练：训练阶段模拟推理过程，模型基于自身历史输出生成
梯度截断策略：仅对最后去噪步骤计算梯度
滚动 KV 缓存：固定大小窗口，O(TL) 复杂度

整体分布匹配损失

视频级损失（DMD/SiD/GAN）优化生成序列与真实数据分布对齐。

主要结论

指标	结果
实时生成	17 FPS（H100）
VBench 总分	84.31
吞吐量提升	4.6→16.1 FPS
训练时间	与 TF/DF 相当（1.5h 收敛）

创新点

训练-测试对齐：首次在视频扩散模型实现训练阶段自回归展开
混合架构：融合自回归、扩散模型、GAN 思想
工程优化：梯度截断 + 滚动 KV 缓存
新范式：并行预训练 + 序列后训练

Comments