张芷铭的个人博客

高频细节的"重建"与"生成"本质区别在于信息来源:前者依赖 latent 保留的原始信息,后者依赖模型习得的统计规律。

核心区别

概念信息来源适用条件
重建Latent 空间保留的原始特征低压缩率,信息丢失少
生成训练习得的统计规律和语义知识高压缩率,信息丢失多

高压缩率下的困境

现有方法的局限:

方法问题
Sora/MovieGen第二阶段扩散模型增加计算成本
Pixel-loss高压缩率时 latent 信息不足

LTX-Video 的创新

VAE 解码器同时执行最后去噪 + latent-to-pixel 转换:

  • 跳过对 latent 缺失信息的依赖
  • 让模型主动"生成"合理高频细节
  • 避免额外模块,平衡效率与质量

Comments