- 张芷铭的个人博客

张芷铭的个人博客

📅 2026-02-26

#ai #deep-learning #machine-learning

Wan 基于基础模型扩展 8 类下游任务，通过统一条件注入和适配器设计实现多任务复用。

图像到视频（I2V）

将输入图像作为第一帧
二进制掩码区分"保留帧"与"生成帧"
跨注意力注入 CLIP 图像特征

统一视频编辑（VACE）

视频条件单元（VCU）：统一输入格式 $[T; F; M]$
概念解耦：掩码分离"待修改帧"和"保留帧"
训练模式：全模型微调或上下文适配器微调

视频个性化生成

直接将人脸图像在 latent 空间扩展
训练时随机丢弃部分人脸帧，支持 0-K 个参考

其他扩展任务

任务	技术
相机运动控制	Plücker 坐标 + 自适应归一化
实时视频生成	Streamer + LCM 蒸馏（50 步→4 步）
视频到音频	1D-VAE + CLIP 视频特征对齐

Comments