张芷铭的个人博客

机器学习分为频率派和贝叶斯派两大流派。频率派通过 MLE 求解参数点估计,贝叶斯派通过 MAP 求解参数后验分布。

频率派 vs 贝叶斯派

方法参数观点目标
频率派 (MLE)参数是常量$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log p(x_i
贝叶斯派 (MAP)参数是随机变量$\theta_{MAP}=\mathop{argmax}_\theta p(X

高斯分布

一维 MLE

$$\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_i$$

$$\sigma_{MLE}^2=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2$$

注意: $\sigma_{MLE}^2$ 是有偏估计,无偏估计为 $\frac{1}{N-1}\sum(x_i-\mu)^2$。

多维高斯分布

$$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$

问题与解决:

问题解决方案
参数自由度 $O(p^2)$ 过高假设 $\Sigma$ 为对角矩阵(Factor Analysis)或各向同性(p-PCA)
单峰分布局限高斯混合模型(GMM)

边缘分布与条件分布

记 $x=(x_a,x_b)^T$,$\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$:

边缘分布:

  • $x_a \sim \mathcal{N}(\mu_a,\Sigma_{aa})$
  • $x_b \sim \mathcal{N}(\mu_b,\Sigma_{bb})$

条件分布: $$x_a|x_b \sim \mathcal{N}(\mu_a+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b), \Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})$$

线性高斯模型

已知 $x \sim \mathcal{N}(\mu,\Lambda^{-1})$,$y|x \sim \mathcal{N}(Ax+b,L^{-1})$:

$$p(y)=\mathcal{N}(A\mu+b, L^{-1}+A\Lambda^{-1}A^T)$$

$$\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$$

Comments