张芷铭的个人博客

Wan 基于基础模型扩展 8 类下游任务,通过统一条件注入和适配器设计实现多任务复用。

图像到视频(I2V)

  • 将输入图像作为第一帧
  • 二进制掩码区分"保留帧"与"生成帧"
  • 跨注意力注入 CLIP 图像特征

统一视频编辑(VACE)

  • 视频条件单元(VCU):统一输入格式 $[T; F; M]$
  • 概念解耦:掩码分离"待修改帧"和"保留帧"
  • 训练模式:全模型微调或上下文适配器微调

视频个性化生成

  • 直接将人脸图像在 latent 空间扩展
  • 训练时随机丢弃部分人脸帧,支持 0-K 个参考

其他扩展任务

任务技术
相机运动控制Plücker 坐标 + 自适应归一化
实时视频生成Streamer + LCM 蒸馏(50 步→4 步)
视频到音频1D-VAE + CLIP 视频特征对齐

Comments