变分推断通过最大化 ELBO 近似后验分布,分为基于平均场的坐标上升和基于梯度的随机变分推断(SGVI)。
问题设定
推断核心是求解参数后验分布:
变分下界
最大化 等价于最小化 KL 散度。
平均场变分推断
假设 ,坐标上升求解:
局限性:
- 平均场假设太强
- 期望中的积分可能无法计算
随机梯度变分推断 (SGVI)
将变分推断转化为优化问题:
Score Function 梯度:
重参数化技巧:
令 ,:
重参数化降低方差,可通过蒙特卡洛采样估计梯度。
变分推断通过最大化 ELBO 近似后验分布,分为基于平均场的坐标上升和基于梯度的随机变分推断(SGVI)。
推断核心是求解参数后验分布:
最大化 等价于最小化 KL 散度。
假设 ,坐标上升求解:
局限性:
将变分推断转化为优化问题:
Score Function 梯度:
重参数化技巧:
令 ,:
重参数化降低方差,可通过蒙特卡洛采样估计梯度。