Wan 针对大规模视频生成的计算与内存瓶颈,设计了并行策略、内存优化、推理加速三大模块。
并行训练策略
采用 2D 上下文并行(CP)+ FSDP + DP 混合并行架构:
| 策略 | 作用 |
|---|---|
| 2D 上下文并行 | Ulysses + Ring Attention,通信开销降至 1% 以下 |
| FSDP | 模型参数、梯度、优化器状态分片存储 |
| 模块间切换 | VAE 用 DP,DiT 用 DP+CP |
内存优化
| 技术 | 说明 |
|---|---|
| 激活卸载 | 激活值卸载到 CPU,与计算重叠 |
| 混合 GC+卸载 | 高内存-计算比层用 GC,长序列结合 CPU 卸载 |
| 集群可靠性 | 故障检测与自愈,任务自动恢复 |
推理加速
扩散缓存
利用采样步骤间注意力相似性,每隔若干步缓存并复用结果,14B 模型推理速度提升 1.62×。
量化优化
| 技术 | 效果 |
|---|---|
| FP8 GEMM | 比 BF16 快 2 倍,DiT 速度提升 1.13× |
| 8 位 FlashAttention | H20 GPU 上 MFU 达 95%,效率提升 1.27× |
并行推理
沿用训练阶段的 2D CP + FSDP 策略,实现近线性多 GPU 加速。
张芷铭的个人博客
Comments