- 张芷铭的个人博客

VAE 变分下界（VLB）推导通过变分推断优化负对数似然，最终转化为可计算的 KL 散度组合。

问题定义

目标：最小化观测数据 $\mathbf{x}_0$ 的负对数似然：

$$L_{\text{CE}} = -\mathbb{E}_{q(\mathbf{x}0)} \log p\theta(\mathbf{x}_0)$$

挑战：直接计算 $p_\theta(\mathbf{x}0)$ 需边缘化隐变量 $\mathbf{x}{1:T}$，涉及高维积分。

推导步骤

1. 引入变分分布与 Jensen 不等式

$$L_{\text{CE}} \leq -\mathbb{E}{q(\mathbf{x}{0:T})} \log \frac{p_\theta(\mathbf{x}{0:T})}{q(\mathbf{x}{1:T} \vert \mathbf{x}0)} = L{\text{VLB}}$$

Jensen 不等式将积分外提，得到下界（ELBO）。

2. 马尔可夫链分解

$$L_{\text{VLB}} = \mathbb{E}{q(\mathbf{x}{0:T})} \left[ \log \frac{\prod_{t=1}^T q(\mathbf{x}t \vert \mathbf{x}{t-1})}{p_\theta(\mathbf{x}T) \prod{t=1}^T p_\theta(\mathbf{x}_{t-1} \vert \mathbf{x}_t)} \right]$$

3. 条件概率重组

$$L_{\text{VLB}} = \mathbb{E}_q \left[ \log \frac{q(\mathbf{x}T \vert \mathbf{x}0)}{p\theta(\mathbf{x}T)} + \sum{t=2}^T \log \frac{q(\mathbf{x}{t-1} \vert \mathbf{x}t, \mathbf{x}0)}{p\theta(\mathbf{x}{t-1} \vert \mathbf{x}t)} - \log p\theta(\mathbf{x}_0 \vert \mathbf{x}_1) \right]$$

4. 最终目标函数

$$L_{\text{VLB}} = \mathbb{E}q \left[ \underbrace{D{\text{KL}}(q(\mathbf{x}T \vert \mathbf{x}0) \parallel p\theta(\mathbf{x}T))}{L_T} + \sum{t=2}^T \underbrace{D_{\text{KL}}(q(\mathbf{x}{t-1} \vert \mathbf{x}t, \mathbf{x}0) \parallel p\theta(\mathbf{x}{t-1} \vert \mathbf{x}t))}{L{t-1}} \underbrace{- \log p_\theta(\mathbf{x}_0 \vert \mathbf{x}1)}{L_0} \right]$$

各项物理意义

项	含义
$L_T$	约束最终状态 $\mathbf{x}_T$ 与先验分布对齐
$L_{t-1}$	约束反向生成过程逼近前向扩散后验
$L_0$	重构损失，确保生成数据与原始数据一致

核心思想总结

变分推断框架：引入变分分布 $q$，将不可计算的边缘似然转化为可优化的下界
Jensen 不等式：将积分问题转化为期望的优化问题
马尔可夫链分解：将联合分布拆解为可建模的条件概率
KL 散度最小化：将生成过程与扩散过程对齐