张芷铭的个人博客

self-forcing

📅 2025-08-07

研究问题

本文针对自回归视频扩散模型（autoregressive video diffusion models）中存在的训练-测试分布不匹配问题（exposure bias）展开研究。具体表现为：

传统方法局限性：现有方法（如Teacher Forcing和Diffusion Forcing）在训练时依赖真实帧或噪声帧作为上下文，但推理时需基于模型自身生成的误差累积帧，导致生成质量随时间退化。
实时性需求：双向注意力扩散模型无法满足实时流式生成（如交互式应用）的低延迟要求，而现有自回归模型因依赖有损向量量化技术难以达到高质量生成。

研究方法

Self Forcing训练范式：
- 自回归展开训练：在训练阶段模拟推理过程，通过KV缓存机制逐帧生成，使模型基于自身历史输出生成后续帧（如图1c所示）。
- 梯度截断策略：仅对每帧的最后去噪步骤计算梯度，结合随机步长采样（Algorithm 1），平衡计算效率与训练效果。
整体分布匹配损失：
- 采用视频级损失（DMD/SiD/GAN）直接优化生成序列与真实数据的分布对齐，而非传统逐帧损失。例如DMD损失通过KL散度最小化实现（公式3）。
滚动KV缓存机制（Algorithm 2）：
- 固定大小缓存窗口动态更新，实现长视频生成的O(TL)复杂度（图3c），避免传统滑动窗口的重复计算问题。

主要结论

性能优势：
- 在单H100 GPU上实现17 FPS实时生成（延迟<0.69秒），VBench总分84.31超越基线（表1），用户偏好率显著领先（图4）。
- 长视频生成中，滚动KV缓存将吞吐量从4.6 FPS提升至16.1 FPS（附录B）。
质量突破：
- 自回归生成质量媲美非因果扩散模型（如Wan2.1），且避免CausVid的饱和度累积问题（图5）。
训练效率：
- 尽管采用序列化训练，因并行化token处理与优化注意力内核（FlashAttention-3），实际训练时间与TF/DF相当（图6），1.5小时即可收敛。

创新点

训练-测试对齐：
- 首次在视频扩散模型中实现训练阶段的自回归展开，从根本上解决exposure bias问题（图1c）。
混合架构设计：
- 融合自回归的链式分解、扩散模型的连续值生成、以及GAN的分布匹配思想，形成统一框架。
工程优化突破：
- 提出梯度截断策略使自回归训练可行，滚动KV缓存机制实现首个高效无限长视频生成方案。
范式革新：
- 提出"并行预训练+序列后训练"新范式，为序列生成任务提供通用解决方案（第5章讨论）。

💬 评论