机器学习核心公式速查表，涵盖概率基础、线性回归、分类、降维、SVM、概率图模型等内容。

数学基础

MLE 与 MAP

$$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log p(x_i|\theta)$$

$$\theta_{MAP}=\mathop{argmax}_\theta p(X|\theta)p(\theta)$$

高斯分布

$$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$

线性回归

闭式解： $\hat{w}=(X^TX)^{-1}X^TY=X^+Y$

正则化：

L2：$\mathop{argmin}_w L(w)+\lambda|w|_2^2$
L1：$\mathop{argmin}_w L(w)+\lambda|w|_1$

线性分类

感知机

损失：$L(w)=\sum_{x_i\in\mathcal{D}_{wrong}}-y_iw^Tx_i$

更新：$w^{t+1} \leftarrow w^t + \lambda y_ix_i$

LDA

目标：$J(w)=\frac{w^TS_bw}{w^TS_w}$

解：$w \propto S_w^{-1}(\overline{x_{c1}}-\overline{x_{c2}})$

Logistic 回归

$p(C_1|x)=\sigma(w^Tx)$

梯度：$J’(w)=\sum(y_i-p_1)x_i$

降维

PCA

最大化方差：$J=\sum_{j=1}^qu_j^TSu_j$

解：$S=U\Lambda U^T$

p-PCA

$z \sim \mathcal{N}(0,I)$，$x=Wz+\mu+\varepsilon$

后验：$p(z|x)=\mathcal{N}(W^T(WW^T+\sigma^2I)^{-1}(x-\mu), I-W^T(WW^T+\sigma^2I)^{-1}W)$

SVM

Hard-margin： $$\mathop{argmin}_{w,b}\frac{1}{2}w^Tw \quad s.t. \quad y_i(w^Tx_i+b)\ge1$$

Soft-margin： $$\mathop{argmin}_{w,b}\frac{1}{2}w^Tw+C\sum\xi_i$$

指数族分布

$$p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))$$

$A’(\eta)=\mathbb{E}[\phi(x)]$，$A’’(\eta)=Var[\phi(x)]$

概率图模型

EM 算法

$$\theta^{t+1}=\mathop{argmax}\theta \mathbb{E}{z|x,\theta^t}[\log p(x,z|\theta)]$$

变分推断

$$\mathcal{L}(q)=\mathbb{E}_q[\log p(x,z)]+H(q)$$

MCMC

Metropolis-Hastings 接受率： $$\alpha=\min\left{1,\frac{p(z^)Q_{z^\to z}}{p(z)Q_{z\to z^*}}\right}$$

GMM

$$p(x)=\sum_{k=1}^Kp_k\mathcal{N}(x|\mu_k,\Sigma_k)$$

更新：$p_k^{t+1}=\frac{1}{N}\sum p(z_i=k|x_i,\theta^t)$

HMM

参数： $\lambda=(\pi,A,B)$

前向算法： $$\alpha_{t+1}(j)=\sum_i b_j(o_t)a_{ij}\alpha_t(i)$$

Viterbi： $$\delta_{t+1}(j)=\max_i \delta_t(i)a_{ij}b_j(o_{t+1})$$

CRF

$$p(Y|X)=\frac{1}{Z}\exp[\theta^TH(y_t,y_{t-1},x)]$$

边缘概率：$p(y_t=i|x)=\frac{1}{Z}\alpha_t(i)\beta_t(i)$