机器学习分为频率派和贝叶斯派两大流派。频率派通过 MLE 求解参数点估计，贝叶斯派通过 MAP 求解参数后验分布。

频率派 vs 贝叶斯派

方法	参数观点	目标
频率派 (MLE)	参数是常量	$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log p(x_i
贝叶斯派 (MAP)	参数是随机变量	$\theta_{MAP}=\mathop{argmax}_\theta p(X

高斯分布

$$\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_i$$

$$\sigma_{MLE}^2=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2$$

注意： $\sigma_{MLE}^2$ 是有偏估计，无偏估计为 $\frac{1}{N-1}\sum(x_i-\mu)^2$。

$$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$

问题与解决：

问题	解决方案
参数自由度 $O(p^2)$ 过高	假设 $\Sigma$ 为对角矩阵（Factor Analysis）或各向同性（p-PCA）
单峰分布局限	高斯混合模型（GMM）

记 $x=(x_a,x_b)^T$，$\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$：

边缘分布：

条件分布： $$x_a|x_b \sim \mathcal{N}(\mu_a+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b), \Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})$$

已知 $x \sim \mathcal{N}(\mu,\Lambda^{-1})$，$y|x \sim \mathcal{N}(Ax+b,L^{-1})$：

$$p(y)=\mathcal{N}(A\mu+b, L^{-1}+A\Lambda^{-1}A^T)$$

$$\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$$