机器学习核心公式速查表,涵盖概率基础、线性回归、分类、降维、SVM、概率图模型等内容。
数学基础
MLE 与 MAP
$$\theta_{MLE}=\mathop{argmax}\theta\sum{i=1}^N\log p(x_i|\theta)$$
$$\theta_{MAP}=\mathop{argmax}_\theta p(X|\theta)p(\theta)$$
高斯分布
$$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)$$
线性回归
闭式解: $\hat{w}=(X^TX)^{-1}X^TY=X^+Y$
正则化:
- L2:$\mathop{argmin}_w L(w)+\lambda|w|_2^2$
- L1:$\mathop{argmin}_w L(w)+\lambda|w|_1$
线性分类
感知机
损失:$L(w)=\sum_{x_i\in\mathcal{D}_{wrong}}-y_iw^Tx_i$
更新:$w^{t+1} \leftarrow w^t + \lambda y_ix_i$
LDA
目标:$J(w)=\frac{w^TS_bw}{w^TS_w}$
解:$w \propto S_w^{-1}(\overline{x_{c1}}-\overline{x_{c2}})$
Logistic 回归
$p(C_1|x)=\sigma(w^Tx)$
梯度:$J’(w)=\sum(y_i-p_1)x_i$
降维
PCA
最大化方差:$J=\sum_{j=1}^qu_j^TSu_j$
解:$S=U\Lambda U^T$
p-PCA
$z \sim \mathcal{N}(0,I)$,$x=Wz+\mu+\varepsilon$
后验:$p(z|x)=\mathcal{N}(W^T(WW^T+\sigma^2I)^{-1}(x-\mu), I-W^T(WW^T+\sigma^2I)^{-1}W)$
SVM
Hard-margin: $$\mathop{argmin}_{w,b}\frac{1}{2}w^Tw \quad s.t. \quad y_i(w^Tx_i+b)\ge1$$
Soft-margin: $$\mathop{argmin}_{w,b}\frac{1}{2}w^Tw+C\sum\xi_i$$
指数族分布
$$p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))$$
$A’(\eta)=\mathbb{E}[\phi(x)]$,$A’’(\eta)=Var[\phi(x)]$
概率图模型
EM 算法
$$\theta^{t+1}=\mathop{argmax}\theta \mathbb{E}{z|x,\theta^t}[\log p(x,z|\theta)]$$
变分推断
$$\mathcal{L}(q)=\mathbb{E}_q[\log p(x,z)]+H(q)$$
MCMC
Metropolis-Hastings 接受率: $$\alpha=\min\left{1,\frac{p(z^)Q_{z^\to z}}{p(z)Q_{z\to z^*}}\right}$$
GMM
$$p(x)=\sum_{k=1}^Kp_k\mathcal{N}(x|\mu_k,\Sigma_k)$$
更新:$p_k^{t+1}=\frac{1}{N}\sum p(z_i=k|x_i,\theta^t)$
HMM
参数: $\lambda=(\pi,A,B)$
前向算法: $$\alpha_{t+1}(j)=\sum_i b_j(o_t)a_{ij}\alpha_t(i)$$
Viterbi: $$\delta_{t+1}(j)=\max_i \delta_t(i)a_{ij}b_j(o_{t+1})$$
CRF
$$p(Y|X)=\frac{1}{Z}\exp[\theta^TH(y_t,y_{t-1},x)]$$
边缘概率:$p(y_t=i|x)=\frac{1}{Z}\alpha_t(i)\beta_t(i)$
张芷铭的个人博客
Comments