- 张芷铭的个人博客

LTX-Video 的 VAE 实现 1:192 高压缩比，通过时空下采样和解码器双重任务优化视频生成效率。

VAE 核心设计

设计	说明
分块迁移	VAE 输入阶段完成分块，跳过 Transformer 分块步骤
解码器双重任务	从 latent 重建像素 + 最后一步去噪
共享扩散目标	解码器作为扩散模型直接生成干净像素

通过逐标记时间步控制实现从第一帧生成视频。

传统模型所有标记使用相同时间步，LTX-Video 允许每个标记拥有独立时间步。

无需特殊标记或额外训练模型，仅通过调整时间步实现条件控制。