线性回归通过最小二乘法求解,闭式解为 $\hat{w}=(X^TX)^{-1}X^TY$。高斯噪声 MLE 等价于最小二乘,正则化对应不同的先验假设。
模型假设
数据集 $\mathcal{D}={(x_i,y_i)}_{i=1}^N$,线性模型 $f(w)=w^Tx$。
最小二乘法
损失函数:
$$L(w)=\sum_{i=1}^N|w^Tx_i-y_i|_2^2$$
闭式解:
$$\hat{w}=(X^TX)^{-1}X^TY=X^+Y$$
通过 SVD 求伪逆:$X^+=V\Sigma^{-1}U^T$
几何解释: 模型 $X\beta$ 为数据张成空间的投影,残差与该空间垂直。
高斯噪声 MLE
$y=w^Tx+\varepsilon, \varepsilon\sim\mathcal{N}(0,\sigma^2)$
$$\mathop{argmax}_w\log p(Y|X,w)=\mathop{argmin}w\sum{i=1}^N(y_i-w^Tx_i)^2$$
等价于最小二乘。
正则化
| 方法 | 公式 | 先验 |
|---|---|---|
| L1 (Lasso) | $L(w)+\lambda|w|_1$ | Laplace |
| L2 (Ridge) | $L(w)+\lambda|w|_2^2$ | Gaussian |
Ridge 解: $$\hat{w}=(X^TX+\lambda\mathbb{I})^{-1}X^TY$$
Lasso 特点: 产生稀疏解,更容易在坐标轴上取到。
线性模型的扩展
| 扩展方式 | 方法 |
|---|---|
| 特征变换 | 多项式回归 |
| 非线性激活 | 感知机、神经网络 |
| 分区域建模 | 决策树 |
| 降维 | PCA、流形学习 |
张芷铭的个人博客
Comments