- 张芷铭的个人博客

张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

Wan 视频生成模型核心组件包括 Wan-VAE、Video Diffusion Transformer 和文本编码器，协同完成文本到视频生成。

整体流程

文本编码：umT5 将输入文本转换为语义嵌入向量
Latent 映射：Wan-VAE 将视频压缩为低维 latent 空间
扩散生成：DiT 通过去噪学习视频时空分布
解码输出：Wan-VAE 将 latent 解码为视频像素序列

时空变分自编码器（Wan-VAE）

专为视频设计的 3D 因果 VAE，实现 4×8×8 倍时空压缩。

核心特性

特性	说明
因果性保障	RMSNorm 替代 GroupNorm，确保时序逻辑一致性
轻量设计	参数仅 127M，编码速度比 SOTA 快 2.5 倍
特征缓存	分块处理 + 特征缓存，支持任意长度视频

训练策略

2D 图像预训练
3D 视频微调（128×128，5 帧）
高分辨率优化 + 3D GAN 损失

视频扩散 Transformer

基于 DiT 架构优化，占训练总计算量 85% 以上。

整体结构

分块模块：3D 卷积将 latent 转换为特征序列
Transformer 块：自注意力 + 交叉注意力 + FFN
反分块模块：特征序列还原为 latent 空间

关键创新

技术	效果
全时空注意力	捕捉复杂动态（大动作、相机运动）
共享 AdaLN	减少 25% 参数，提升性能
时间嵌入处理	MLP 转换为 6 个调制参数注入

文本编码器

选择 umT5 而非 CLIP 或 decoder-only LLM：

原生支持中英双语
双向注意力更适合文本-视觉对齐
相同参数规模下收敛更快

Comments