Wan 基于基础模型扩展 8 类下游任务,通过统一条件注入和适配器设计实现多任务复用。
图像到视频(I2V)
- 将输入图像作为第一帧
- 二进制掩码区分"保留帧"与"生成帧"
- 跨注意力注入 CLIP 图像特征
统一视频编辑(VACE)
- 视频条件单元(VCU):统一输入格式 $[T; F; M]$
- 概念解耦:掩码分离"待修改帧"和"保留帧"
- 训练模式:全模型微调或上下文适配器微调
视频个性化生成
- 直接将人脸图像在 latent 空间扩展
- 训练时随机丢弃部分人脸帧,支持 0-K 个参考
其他扩展任务
| 任务 | 技术 |
|---|---|
| 相机运动控制 | Plücker 坐标 + 自适应归一化 |
| 实时视频生成 | Streamer + LCM 蒸馏(50 步→4 步) |
| 视频到音频 | 1D-VAE + CLIP 视频特征对齐 |
张芷铭的个人博客
Comments