- 张芷铭的个人博客

Wan 针对大规模视频生成的计算与内存瓶颈，设计了并行策略、内存优化、推理加速三大模块。

并行训练策略

采用 2D 上下文并行（CP）+ FSDP + DP 混合并行架构：

策略	作用
2D 上下文并行	Ulysses + Ring Attention，通信开销降至 1% 以下
FSDP	模型参数、梯度、优化器状态分片存储
模块间切换	VAE 用 DP，DiT 用 DP+CP

利用采样步骤间注意力相似性，每隔若干步缓存并复用结果，14B 模型推理速度提升 1.62×。

技术	效果
FP8 GEMM	比 BF16 快 2 倍，DiT 速度提升 1.13×
8 位 FlashAttention	H20 GPU 上 MFU 达 95%，效率提升 1.27×

沿用训练阶段的 2D CP + FSDP 策略，实现近线性多 GPU 加速。