线性回归通过最小二乘法求解，闭式解为 $\hat{w}=(X^TX)^{-1}X^TY$。高斯噪声 MLE 等价于最小二乘，正则化对应不同的先验假设。

模型假设

数据集 $\mathcal{D}={(x_i,y_i)}_{i=1}^N$，线性模型 $f(w)=w^Tx$。

最小二乘法

损失函数：

$$L(w)=\sum_{i=1}^N|w^Tx_i-y_i|_2^2$$

闭式解：

$$\hat{w}=(X^TX)^{-1}X^TY=X^+Y$$

通过 SVD 求伪逆：$X^+=V\Sigma^{-1}U^T$

几何解释： 模型 $X\beta$ 为数据张成空间的投影，残差与该空间垂直。

$y=w^Tx+\varepsilon, \varepsilon\sim\mathcal{N}(0,\sigma^2)$

$$\mathop{argmax}_w\log p(Y|X,w)=\mathop{argmin}w\sum{i=1}^N(y_i-w^Tx_i)^2$$

等价于最小二乘。

方法	公式	先验
L1 (Lasso)	$L(w)+\lambda\|w\|_1$	Laplace
L2 (Ridge)	$L(w)+\lambda\|w\|_2^2$	Gaussian

Ridge 解： $$\hat{w}=(X^TX+\lambda\mathbb{I})^{-1}X^TY$$

Lasso 特点： 产生稀疏解，更容易在坐标轴上取到。