变分推断通过最大化 ELBO 近似后验分布，分为基于平均场的坐标上升和基于梯度的随机变分推断（SGVI）。

问题设定

推断核心是求解参数后验分布：

$p (\overset{x}{^} ∣ X) = \int_{θ} p (θ ∣ X) p (\overset{x}{^} ∣ θ) d θ$

变分下界

$lo g p (X) = E L BO + K L (q, p)$

$E L BO = L (q) = \int_{Z} q (Z) lo g p (X, Z) d Z - \int_{Z} q (Z) lo g q (Z) d Z$

最大化 $L (q)$ 等价于最小化 KL 散度。

假设 $q (Z) = \prod_{i = 1}^{M} q_{i} (Z_{i})$ ，坐标上升求解：

$q_{j} (Z_{j}) = \overset{p}{^} (X, Z_{j}) = exp (E_{\prod_{i \neq = j} q_{i}} [lo g p (X, Z)])$

局限性：

将变分推断转化为优化问题： $a r g ma x_{ϕ} L (ϕ)$

Score Function 梯度： $\nabla_{ϕ} L (ϕ) = E_{q_{ϕ}} [(\nabla_{ϕ} lo g q_{ϕ}) (lo g p_{θ} (x, z) - lo g q_{ϕ} (z))]$

重参数化技巧：

令 $z = g_{ϕ} (ε, x)$ ， $ε \sim p (ε)$ ：

$\nabla_{ϕ} L (ϕ) = E_{p (ε)} [\nabla_{z} [lo g p_{θ} (x, z) - lo g q_{ϕ} (z)] \nabla_{ϕ} g_{ϕ} (ε, x)]$

重参数化降低方差，可通过蒙特卡洛采样估计梯度。