研究问题
本文针对自回归视频扩散模型(autoregressive video diffusion models)中存在的训练-测试分布不匹配问题(exposure bias)展开研究。具体表现为:
- 传统方法局限性:现有方法(如Teacher Forcing和Diffusion Forcing)在训练时依赖真实帧或噪声帧作为上下文,但推理时需基于模型自身生成的误差累积帧,导致生成质量随时间退化。
- 实时性需求:双向注意力扩散模型无法满足实时流式生成(如交互式应用)的低延迟要求,而现有自回归模型因依赖有损向量量化技术难以达到高质量生成。
研究方法
Self Forcing训练范式:
自回归展开训练:在训练阶段模拟推理过程,通过KV缓存机制逐帧生成,使模型基于自身历史输出生成后续帧(如图1c所示)。
梯度截断策略:仅对每帧的最后去噪步骤计算梯度,结合随机步长采样(Algorithm 1),平衡计算效率与训练效果。
整体分布匹配损失:
- 采用视频级损失(DMD/SiD/GAN)直接优化生成序列与真实数据的分布对齐,而非传统逐帧损失。例如DMD损失通过KL散度最小化实现(公式3)。
滚动KV缓存机制(Algorithm 2):
- 固定大小缓存窗口动态更新,实现长视频生成的O(TL)复杂度(图3c),避免传统滑动窗口的重复计算问题。
主要结论
性能优势:
- 在单H100 GPU上实现17 FPS实时生成(延迟<0.69秒),VBench总分84.31超越基线(表1),用户偏好率显著领先(图4)。
- 长视频生成中,滚动KV缓存将吞吐量从4.6 FPS提升至16.1 FPS(附录B)。
质量突破:
- 自回归生成质量媲美非因果扩散模型(如Wan2.1),且避免CausVid的饱和度累积问题(图5)。
训练效率:
- 尽管采用序列化训练,因并行化token处理与优化注意力内核(FlashAttention-3),实际训练时间与TF/DF相当(图6),1.5小时即可收敛。
创新点
训练-测试对齐:
- 首次在视频扩散模型中实现训练阶段的自回归展开,从根本上解决exposure bias问题(图1c)。
混合架构设计:
- 融合自回归的链式分解、扩散模型的连续值生成、以及GAN的分布匹配思想,形成统一框架。
工程优化突破:
- 提出梯度截断策略使自回归训练可行,滚动KV缓存机制实现首个高效无限长视频生成方案。
范式革新:
- 提出"并行预训练+序列后训练"新范式,为序列生成任务提供通用解决方案(第5章讨论)。
💬 评论