线性可分SVM对训练数据集的要求过于理想化。
对于有线性关系但线性不可分的数据,要做一些改进,即线性SVM。
模型
w,b,ξmin21∣∣w∣∣2+Ci=1∑Nξis.t.yi(w⋅xi+b)≥1−ξiξi≥0,i=1,2,⋯,N12 公式说明:
ξi:松弛变量。给样本增加一个松弛变量,使它能够满足约束。
公式(2)说明样本加上松弛变量后就≥1
公式(1)说明对每个松弛变量都要支付一个ξi大小的代价。
C:代表约束条件与松弛变量之间的平衡。
策略
对于给定的线性不可分的训练数据集,通过求解凸二次规划问题,即公式(1)、(2)软件间隔最大化问题
得到的分离超平面为:
w∗⋅x+b∗=0 相应的分类决策函数为:
f(x)=sign(w∗⋅x+b∗) 算法