张芷铭的个人博客

Wan 针对大规模视频生成的计算与内存瓶颈,设计了并行策略、内存优化、推理加速三大模块。

并行训练策略

采用 2D 上下文并行(CP)+ FSDP + DP 混合并行架构:

策略作用
2D 上下文并行Ulysses + Ring Attention,通信开销降至 1% 以下
FSDP模型参数、梯度、优化器状态分片存储
模块间切换VAE 用 DP,DiT 用 DP+CP

内存优化

技术说明
激活卸载激活值卸载到 CPU,与计算重叠
混合 GC+卸载高内存-计算比层用 GC,长序列结合 CPU 卸载
集群可靠性故障检测与自愈,任务自动恢复

推理加速

扩散缓存

利用采样步骤间注意力相似性,每隔若干步缓存并复用结果,14B 模型推理速度提升 1.62×

量化优化

技术效果
FP8 GEMM比 BF16 快 2 倍,DiT 速度提升 1.13×
8 位 FlashAttentionH20 GPU 上 MFU 达 95%,效率提升 1.27×

并行推理

沿用训练阶段的 2D CP + FSDP 策略,实现近线性多 GPU 加速。

Comments