机器学习分为频率派和贝叶斯派两大流派。频率派通过 MLE 求解参数点估计,贝叶斯派通过 MAP 求解参数后验分布。
频率派 vs 贝叶斯派
| 方法 | 参数观点 | 目标 |
|---|---|---|
| 频率派 (MLE) | 参数是常量 | $\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log p(x_i |
| 贝叶斯派 (MAP) | 参数是随机变量 | $\theta_{MAP}=\mathop{argmax}_\theta p(X |
高斯分布
一维 MLE
$$\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_i$$
$$\sigma_{MLE}^2=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2$$
注意: $\sigma_{MLE}^2$ 是有偏估计,无偏估计为 $\frac{1}{N-1}\sum(x_i-\mu)^2$。
多维高斯分布
$$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$
问题与解决:
| 问题 | 解决方案 |
|---|---|
| 参数自由度 $O(p^2)$ 过高 | 假设 $\Sigma$ 为对角矩阵(Factor Analysis)或各向同性(p-PCA) |
| 单峰分布局限 | 高斯混合模型(GMM) |
边缘分布与条件分布
记 $x=(x_a,x_b)^T$,$\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$:
边缘分布:
- $x_a \sim \mathcal{N}(\mu_a,\Sigma_{aa})$
- $x_b \sim \mathcal{N}(\mu_b,\Sigma_{bb})$
条件分布: $$x_a|x_b \sim \mathcal{N}(\mu_a+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b), \Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba})$$
线性高斯模型
已知 $x \sim \mathcal{N}(\mu,\Lambda^{-1})$,$y|x \sim \mathcal{N}(Ax+b,L^{-1})$:
$$p(y)=\mathcal{N}(A\mu+b, L^{-1}+A\Lambda^{-1}A^T)$$
$$\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$$
张芷铭的个人博客
Comments