张芷铭的个人博客

VAE 变分下界(VLB)推导通过变分推断优化负对数似然,最终转化为可计算的 KL 散度组合。

问题定义

目标:最小化观测数据 $\mathbf{x}_0$ 的负对数似然:

$$L_{\text{CE}} = -\mathbb{E}_{q(\mathbf{x}0)} \log p\theta(\mathbf{x}_0)$$

挑战:直接计算 $p_\theta(\mathbf{x}0)$ 需边缘化隐变量 $\mathbf{x}{1:T}$,涉及高维积分。

推导步骤

1. 引入变分分布与 Jensen 不等式

$$L_{\text{CE}} \leq -\mathbb{E}{q(\mathbf{x}{0:T})} \log \frac{p_\theta(\mathbf{x}{0:T})}{q(\mathbf{x}{1:T} \vert \mathbf{x}0)} = L{\text{VLB}}$$

Jensen 不等式将积分外提,得到下界(ELBO)。

2. 马尔可夫链分解

$$L_{\text{VLB}} = \mathbb{E}{q(\mathbf{x}{0:T})} \left[ \log \frac{\prod_{t=1}^T q(\mathbf{x}t \vert \mathbf{x}{t-1})}{p_\theta(\mathbf{x}T) \prod{t=1}^T p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t)} \right]$$

3. 条件概率重组

$$L_{\text{VLB}} = \mathbb{E}_q \left[ \log \frac{q(\mathbf{x}T \vert \mathbf{x}0)}{p\theta(\mathbf{x}T)} + \sum{t=2}^T \log \frac{q(\mathbf{x}{t-1} \vert \mathbf{x}t, \mathbf{x}0)}{p\theta(\mathbf{x}{t-1} \vert \mathbf{x}t)} - \log p\theta(\mathbf{x}_0 \vert \mathbf{x}_1) \right]$$

4. 最终目标函数

$$L_{\text{VLB}} = \mathbb{E}q \left[ \underbrace{D{\text{KL}}(q(\mathbf{x}T \vert \mathbf{x}0) \parallel p\theta(\mathbf{x}T))}{L_T} + \sum{t=2}^T \underbrace{D_{\text{KL}}(q(\mathbf{x}{t-1} \vert \mathbf{x}t, \mathbf{x}0) \parallel p\theta(\mathbf{x}{t-1} \vert \mathbf{x}t))}{L{t-1}} \underbrace{- \log p_\theta(\mathbf{x}_0 \vert \mathbf{x}1)}{L_0} \right]$$

各项物理意义

含义
$L_T$约束最终状态 $\mathbf{x}_T$ 与先验分布对齐
$L_{t-1}$约束反向生成过程逼近前向扩散后验
$L_0$重构损失,确保生成数据与原始数据一致

核心思想总结

  1. 变分推断框架:引入变分分布 $q$,将不可计算的边缘似然转化为可优化的下界
  2. Jensen 不等式:将积分问题转化为期望的优化问题
  3. 马尔可夫链分解:将联合分布拆解为可建模的条件概率
  4. KL 散度最小化:将生成过程与扩散过程对齐

Comments