SVM 通过最大化间隔实现分类,支持硬间隔、软间隔和核方法三种策略。
问题分类与策略
| 数据特点 | SVM 方法 |
|---|
| 线性可分 | Hard-margin |
| 近似线性可分 | Soft-margin |
| 非线性 | Kernel Method |
约束优化基础
原问题:
minxf(x)s.t.mi(x)≤0,nj(x)=0
Lagrange 函数:
L(x,λ,η)=f(x)+∑iλimi(x)+∑jηjnj(x)
对偶关系:maxλ,ηminxL≤minxmaxλ,ηL
凸优化满足 Slater 条件时强对偶成立,KKT 条件为充要条件:
- 可行域:mi(x∗)≤0,nj(x∗)=0,λ∗≥0
- 互补松弛:λ∗mi(x∗)=0
- 梯度为零:∇xL(x∗,λ∗,η∗)=0
Hard-margin SVM
最大化间隔:
argminw,b21wTws.t.yi(wTxi+b)≥1
对偶问题:
maxλ−21∑i,jλiλjyiyjxiTxj+∑iλis.t.λi≥0
KKT 条件给出解:
w^=∑i=1Nλiyixi,b^=yk−wTxk
仅支撑向量(λi>0)参与决策边界构建。
Soft-margin SVM
引入松弛变量处理不可分数据:
argminw,b21wTw+C∑i=1Nξis.t.yi(wTxi+b)≥1−ξi,ξi≥0
损失等价于 Hinge 函数:max{0,1−yi(wTxi+b)}
Kernel Method
通过特征变换 ϕ(x) 将数据映射到高维空间。核函数直接计算变换后的内积:
k(x,x′)=ϕ(x)Tϕ(x′)
正定核条件:对称性 + Gram 矩阵半正定。
常用核函数如高斯核:k(x,x′)=exp(−2σ2∥x−x′∥2)
