高频细节的"重建"与"生成"本质区别在于信息来源:前者依赖 latent 保留的原始信息,后者依赖模型习得的统计规律。
核心区别
| 概念 | 信息来源 | 适用条件 |
|---|---|---|
| 重建 | Latent 空间保留的原始特征 | 低压缩率,信息丢失少 |
| 生成 | 训练习得的统计规律和语义知识 | 高压缩率,信息丢失多 |
高压缩率下的困境
现有方法的局限:
| 方法 | 问题 |
|---|---|
| Sora/MovieGen | 第二阶段扩散模型增加计算成本 |
| Pixel-loss | 高压缩率时 latent 信息不足 |
LTX-Video 的创新
VAE 解码器同时执行最后去噪 + latent-to-pixel 转换:
- 跳过对 latent 缺失信息的依赖
- 让模型主动"生成"合理高频细节
- 避免额外模块,平衡效率与质量
张芷铭的个人博客
Comments