张芷铭的个人博客

Wan 视频生成模型核心组件包括 Wan-VAE、Video Diffusion Transformer 和文本编码器,协同完成文本到视频生成。

整体流程

  1. 文本编码:umT5 将输入文本转换为语义嵌入向量
  2. Latent 映射:Wan-VAE 将视频压缩为低维 latent 空间
  3. 扩散生成:DiT 通过去噪学习视频时空分布
  4. 解码输出:Wan-VAE 将 latent 解码为视频像素序列

时空变分自编码器(Wan-VAE)

专为视频设计的 3D 因果 VAE,实现 4×8×8 倍时空压缩

核心特性

特性说明
因果性保障RMSNorm 替代 GroupNorm,确保时序逻辑一致性
轻量设计参数仅 127M,编码速度比 SOTA 快 2.5 倍
特征缓存分块处理 + 特征缓存,支持任意长度视频

训练策略

  1. 2D 图像预训练
  2. 3D 视频微调(128×128,5 帧)
  3. 高分辨率优化 + 3D GAN 损失

视频扩散 Transformer

基于 DiT 架构优化,占训练总计算量 85% 以上。

整体结构

  • 分块模块:3D 卷积将 latent 转换为特征序列
  • Transformer 块:自注意力 + 交叉注意力 + FFN
  • 反分块模块:特征序列还原为 latent 空间

关键创新

技术效果
全时空注意力捕捉复杂动态(大动作、相机运动)
共享 AdaLN减少 25% 参数,提升性能
时间嵌入处理MLP 转换为 6 个调制参数注入

文本编码器

选择 umT5 而非 CLIP 或 decoder-only LLM:

  • 原生支持中英双语
  • 双向注意力更适合文本-视觉对齐
  • 相同参数规模下收敛更快

Comments