LTX-Video 的 VAE 实现 1:192 高压缩比,通过时空下采样和解码器双重任务优化视频生成效率。
VAE 核心设计
高压缩效率
- 压缩比:1:192(空间 32 倍 + 时间 8 倍)
- 效果:大幅减少 Transformer token 数量,支持实时生成
关键创新
| 设计 | 说明 |
|---|---|
| 分块迁移 | VAE 输入阶段完成分块,跳过 Transformer 分块步骤 |
| 解码器双重任务 | 从 latent 重建像素 + 最后一步去噪 |
| 共享扩散目标 | 解码器作为扩散模型直接生成干净像素 |
潜在空间优化
- 重建 GAN:判别器对比同一视频原始帧与重建帧
- 多层噪声注入:增加高频细节多样性
- 均匀 log 方差:所有通道均匀参与信息编码
Image Condition 机制
通过逐标记时间步控制实现从第一帧生成视频。
核心改进
传统模型所有标记使用相同时间步,LTX-Video 允许每个标记拥有独立时间步。
推理流程
- 编码条件图像(第一帧)为 latent
- 拼接编码 latent 与随机噪声 latent
- 设置逐标记时间步:
- 条件标记:小值 $t_c$(低噪声)
- 生成标记:$t=1$(纯噪声)
无需特殊标记或额外训练模型,仅通过调整时间步实现条件控制。
张芷铭的个人博客
Comments