VAE 变分下界(VLB)推导通过变分推断优化负对数似然,最终转化为可计算的 KL 散度组合。
问题定义
目标:最小化观测数据 x0 的负对数似然:
LCE=−Eq(x0)logpθ(x0)
挑战:直接计算 pθ(x0) 需边缘化隐变量 x1:T,涉及高维积分。
推导步骤
1. 引入变分分布与 Jensen 不等式
LCE≤−Eq(x0:T)logq(x1:T∣x0)pθ(x0:T)=LVLB
Jensen 不等式将积分外提,得到下界(ELBO)。
2. 马尔可夫链分解
LVLB=Eq(x0:T)[logpθ(xT)∏t=1Tpθ(xt−1∣xt)∏t=1Tq(xt∣xt−1)]
3. 条件概率重组
LVLB=Eq[logpθ(xT)q(xT∣x0)+∑t=2Tlogpθ(xt−1∣xt)q(xt−1∣xt,x0)−logpθ(x0∣x1)]
4. 最终目标函数
LVLB=EqLTDKL(q(xT∣x0)∥pθ(xT))+∑t=2TLt−1DKL(q(xt−1∣xt,x0)∥pθ(xt−1∣xt))L0−logpθ(x0∣x1)
各项物理意义
| 项 | 含义 |
|---|
| LT | 约束最终状态 xT 与先验分布对齐 |
| Lt−1 | 约束反向生成过程逼近前向扩散后验 |
| L0 | 重构损失,确保生成数据与原始数据一致 |
核心思想总结
- 变分推断框架:引入变分分布 q,将不可计算的边缘似然转化为可优化的下界
- Jensen 不等式:将积分问题转化为期望的优化问题
- 马尔可夫链分解:将联合分布拆解为可建模的条件概率
- KL 散度最小化:将生成过程与扩散过程对齐