张芷铭的个人博客

线性回归通过最小二乘法求解,闭式解为 $\hat{w}=(X^TX)^{-1}X^TY$。高斯噪声 MLE 等价于最小二乘,正则化对应不同的先验假设。

模型假设

数据集 $\mathcal{D}={(x_i,y_i)}_{i=1}^N$,线性模型 $f(w)=w^Tx$。

最小二乘法

损失函数:

$$L(w)=\sum_{i=1}^N|w^Tx_i-y_i|_2^2$$

闭式解:

$$\hat{w}=(X^TX)^{-1}X^TY=X^+Y$$

通过 SVD 求伪逆:$X^+=V\Sigma^{-1}U^T$

几何解释: 模型 $X\beta$ 为数据张成空间的投影,残差与该空间垂直。

高斯噪声 MLE

$y=w^Tx+\varepsilon, \varepsilon\sim\mathcal{N}(0,\sigma^2)$

$$\mathop{argmax}_w\log p(Y|X,w)=\mathop{argmin}w\sum{i=1}^N(y_i-w^Tx_i)^2$$

等价于最小二乘。

正则化

方法公式先验
L1 (Lasso)$L(w)+\lambda|w|_1$Laplace
L2 (Ridge)$L(w)+\lambda|w|_2^2$Gaussian

Ridge 解: $$\hat{w}=(X^TX+\lambda\mathbb{I})^{-1}X^TY$$

Lasso 特点: 产生稀疏解,更容易在坐标轴上取到。

线性模型的扩展

扩展方式方法
特征变换多项式回归
非线性激活感知机、神经网络
分区域建模决策树
降维PCA、流形学习

Comments