变分推断通过最大化 ELBO 近似后验分布,分为基于平均场的坐标上升和基于梯度的随机变分推断(SGVI)。

问题设定

推断核心是求解参数后验分布:

变分下界

最大化 等价于最小化 KL 散度。

平均场变分推断

假设 ,坐标上升求解:

局限性:

  • 平均场假设太强
  • 期望中的积分可能无法计算

随机梯度变分推断 (SGVI)

将变分推断转化为优化问题:

Score Function 梯度:

重参数化技巧:

重参数化降低方差,可通过蒙特卡洛采样估计梯度。