机器学习核心公式速查表，涵盖概率基础、线性回归、分类、降维、SVM、概率图模型等内容。

数学基础

MLE 与 MAP

$θ_{M L E} = a r g ma x_{θ} \sum_{i = 1}^{N} lo g p (x_{i} ∣ θ)$

$θ_{M A P} = a r g ma x_{θ} p (X ∣ θ) p (θ)$

高斯分布

$p (x ∣ μ, Σ) = \frac{1}{( 2 π ) ^{p /2} ∣Σ ∣ ^{1/2}} exp (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))$

线性回归

闭式解： $\overset{w}{^} = (X^{T} X)^{- 1} X^{T} Y = X^{+} Y$

正则化：

L2： $a r g min_{w} L (w) + λ ∥ w ∥_{2}^{2}$
L1： $a r g min_{w} L (w) + λ ∥ w ∥_{1}$

线性分类

感知机

损失： $L (w) = \sum_{x_{i} \in D_{w ro n g}} - y_{i} w^{T} x_{i}$

更新： $w^{t + 1} \leftarrow w^{t} + λ y_{i} x_{i}$

LDA

目标： $J (w) = \frac{w ^{T} S _{b} w}{w ^{T} S _{w}}$

解： $w \propto S_{w}^{- 1} (\overline{x_{c 1}} - \overline{x_{c 2}})$

Logistic 回归

$p (C_{1} ∣ x) = σ (w^{T} x)$

梯度： $J^{'} (w) = \sum (y_{i} - p_{1}) x_{i}$

降维

PCA

最大化方差： $J = \sum_{j = 1}^{q} u_{j}^{T} S u_{j}$

解： $S = U Λ U^{T}$

p-PCA

$z \sim N (0, I)$ ， $x = W z + μ + ε$

后验： $p (z ∣ x) = N (W^{T} (W W^{T} + σ^{2} I)^{- 1} (x - μ), I - W^{T} (W W^{T} + σ^{2} I)^{- 1} W)$

SVM

Hard-margin： $a r g min_{w, b} \frac{1}{2} w^{T} w s . t . y_{i} (w^{T} x_{i} + b) \geq 1$

Soft-margin： $a r g min_{w, b} \frac{1}{2} w^{T} w + C \sum ξ_{i}$

指数族分布

$p (x ∣ η) = h (x) exp (η^{T} ϕ (x) - A (η))$

$A^{'} (η) = E [ϕ (x)]$ ， $A^{''} (η) = Va r [ϕ (x)]$

概率图模型

EM 算法

$θ^{t + 1} = a r g ma x_{θ} E_{z ∣ x, θ^{t}} [lo g p (x, z ∣ θ)]$

变分推断

$L (q) = E_{q} [lo g p (x, z)] + H (q)$

MCMC

Metropolis-Hastings 接受率： $α = min {1, \frac{p ( z ^{*} ) Q _{z^{*} \to z}}{p ( z ) Q _{z \to z^{*}}}}$

GMM

$p (x) = \sum_{k = 1}^{K} p_{k} N (x ∣ μ_{k}, Σ_{k})$

更新： $p_{k}^{t + 1} = \frac{1}{N} \sum p (z_{i} = k ∣ x_{i}, θ^{t})$

HMM

参数： $λ = (π, A, B)$

前向算法： $α_{t + 1} (j) = \sum_{i} b_{j} (o_{t}) a_{ij} α_{t} (i)$

Viterbi： $δ_{t + 1} (j) = max_{i} δ_{t} (i) a_{ij} b_{j} (o_{t + 1})$

CRF

$p (Y ∣ X) = \frac{1}{Z} exp [θ^{T} H (y_{t}, y_{t - 1}, x)]$

边缘概率： $p (y_{t} = i ∣ x) = \frac{1}{Z} α_{t} (i) β_{t} (i)$

知识花园

探索

cheatsheet