Wan 视频生成模型核心组件包括 Wan-VAE、Video Diffusion Transformer 和文本编码器,协同完成文本到视频生成。
整体流程
- 文本编码:umT5 将输入文本转换为语义嵌入向量
- Latent 映射:Wan-VAE 将视频压缩为低维 latent 空间
- 扩散生成:DiT 通过去噪学习视频时空分布
- 解码输出:Wan-VAE 将 latent 解码为视频像素序列
时空变分自编码器(Wan-VAE)
专为视频设计的 3D 因果 VAE,实现 4×8×8 倍时空压缩。
核心特性
| 特性 | 说明 |
|---|---|
| 因果性保障 | RMSNorm 替代 GroupNorm,确保时序逻辑一致性 |
| 轻量设计 | 参数仅 127M,编码速度比 SOTA 快 2.5 倍 |
| 特征缓存 | 分块处理 + 特征缓存,支持任意长度视频 |
训练策略
- 2D 图像预训练
- 3D 视频微调(128×128,5 帧)
- 高分辨率优化 + 3D GAN 损失
视频扩散 Transformer
基于 DiT 架构优化,占训练总计算量 85% 以上。
整体结构
- 分块模块:3D 卷积将 latent 转换为特征序列
- Transformer 块:自注意力 + 交叉注意力 + FFN
- 反分块模块:特征序列还原为 latent 空间
关键创新
| 技术 | 效果 |
|---|---|
| 全时空注意力 | 捕捉复杂动态(大动作、相机运动) |
| 共享 AdaLN | 减少 25% 参数,提升性能 |
| 时间嵌入处理 | MLP 转换为 6 个调制参数注入 |
文本编码器
选择 umT5 而非 CLIP 或 decoder-only LLM:
- 原生支持中英双语
- 双向注意力更适合文本-视觉对齐
- 相同参数规模下收敛更快
张芷铭的个人博客
Comments