支持向量机(Support Vector Machineds,SVM)是一个二类问题的分类器,实现方法多样,这里采用了序列最小优化(SMO)实现方法,并通过核函数拓展到非线性可分的SVM。
SVM和最大边缘超平面
- SVM的优缺点
- 优点:泛化错误率低,计算开销不大撒,结果易解释
- 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改情况下仅适用于处理二类问题
- 适用数值类型:数值型和标称型
- 最大边缘超平面:在二维平面上分布的二类数值点,如果可以通过一条直线将两组不同类的数据分开,则这组数据线性可分。在假设数据线性可分的前提下,将数据集分开的直线被称为分隔超平面,如果数据分布在三位平面,那么分隔超平面就是二维的。如果数据集分布在N维空间,则分隔超平面是N-1维。如果数据点离分隔超平面越远,则最后的预测结果就越好。因为决策边界边缘较小的分类器对模型的过分拟合更加敏感,从而在未知的样本上的泛化能力很差。
- 支持向量:离分隔超平面最近的那些点,支持向量机决策只依赖支持向量。
- 寻找最大间隔:用向量的形式
W·X+b
书写分隔超平面不需要考虑空间维度,其中向量W和常量b描述了所给数据的分隔超平面。因此SVM需要寻找使分隔超平面成为最大边缘超平面的W和b。
分隔超平面目标函数的优化
- SVM工作原理:与Logistic回归类似,使用一个类似海维赛德阶跃函数的函数对所给数据的W·X+b的结果判定分类,如果结果大于0则输出+1,否则输出-1。使用+1和-1而不使用1和0的作用在于,可以通过一个统一公式来表示间隔或者数据点到分隔超平面的距离。
函数间隔和几何间隔:点到分隔超平面的函数间隔为
y*(wx+b)
,其中y是函数的类别标签(+1或-1);点到超平面的几何间隔为y*(wx+b)/||w||
。SVM使用几何间隔定义数据点和超平面的距离,因为如果使用函数间隔,则随着w的放大,(wx+b)的值也随之不断增大,此时最优化(最大化)距离无法确定w。《机器学习实战》对SVM的原理介绍很粗略,并且直接给出了最终的可以解决线性不可分情况的公式。《机器学习实战》中SMO之前的部分在July的支持向量机通俗导论的第一层有比较清楚的介绍。下面部分《机器学习实战》没有讲,在《数据挖掘导论》的5.5节。
边缘公式的优化:要最大化最小间隔几何距离,考虑离决策边界最近的数据,如果数据在决策边界上方,则wx+b的结果是正值,在下方为负值,我们可以固定一个因子,调整另一个因子来优化最大值。因此我们设置一个约束条件
y*(wx+b)>=1
,这意味着所有的数据都在wx+b>=1
和wx+b<=-1
的范围内,距离超平面越远的店,其wx+b的绝对值就越大,只有支持向量才满足y(wx+b)=1
的。我们选取两个数据点,一个在wx+b=1直线上,一个在wx+b=-1直线上,相减得到w(x1-x2)=2
,注意w、x1和x2都是向量,所以d=x1-x2就代表着两点之间平行于超平面法线方向的距离。因此d=2/||w||
。要让d最大,等价于让f(w)=||w||^2/2
最小。因此,调整后的目标函数是f(w),并且受到y(wx+b)>=1
的约束。目标函数是二次的,w和b是线性的,因此该问题是凸优化问题(凸函数一阶可微,二阶导衡非负),此时可以引入拉格朗日算子,并且根据KKT条件将不等式约束改为等式约束y(wx+b)-1=0
,变为最小化Lp = ||w||^2/2 - ∑(λ(y(wx+b)-1)
,观察这个式子,我们限定λ>=0。其一阶导数为0,得到w=∑λyx,∑λy=0。将这两个条件代入拉格朗日算子的公式中,就得到书中的最后的目标函数。- 不可分情况的处理:如果有少数数据噪声,需要引入正值的松弛变量ε,修改约束条件为
y(wx+b)-(1-ε)>=0
,假设直线wx+b=-1+ε经过数据点P,并且平行于决策边界,那么P到wx+b=-1的距离是ε/||w||。因此,ε提供了决策边界在训练样本P上的误差估计。同样,因为我们在决策边界上允许了一定的错误,可能导致误分许多的实例,所以对松弛变量很大的边界进行惩罚,修改后的目标函数为f(w) = ||w||^2 /2 +C(∑ε)^k
,其中C和k是用户指定的参数,用于对误分的数据进行惩罚。假定k=1。这样修改后问题的拉格朗日函数多了一项-∑με
,利用KKT条件约束,一阶导数为0,得到额外条件μ+λ =C
,因此0<=λ<=C,配合∑λy = 0
,这就是书中最终给出的约束公式。
SMO求解最优化问题
SMO算法的目标是求出一系列α和b,这里的α就是上面约束条件中的λ(拉格朗日乘子),因为参考的博客和书中都用α,下面也都用α。只要求出了α,根据
w=∑αyx
,就能够求出w。工作原理是每次循环选择两个alpha进行优化处理,一旦找到一对可以优化的α,就增大其中一个,同时减少另外一个。这两个α的选择方法决定了SMO的效率和正确率。SMO算法里的辅助函数
1 | def loadDataSet(fileName): |
- 《机器学习实战》书中先给了简化版的SMO算法,每次先选定一个α,然后随机选取另一个α。如果所有向量都没有被优化,就增加迭代次数,直到达到要求的迭代次数。书中给出平均速度14.5s。
1 | def smoSimple(dataMatIn, classLabels, C, toler, maxIter): |
- 启发式选择方法:每次选择α时,优先选择样本前面系数0<α<C的α作优化,因为在界上(α为0或C)的样例对应的α一般不会更改。这种启发式搜索方法是选择第一个α用的,只要选择出来的两个α中有一个违背了KKT条件,那么目标函数在一步迭代后值会减小。违背KKT条件不代表0<α<C,在界上也有可能会违背。因此在给定初始值α1=0后,先对所有样例进行循环,循环中碰到违背KKT条件的(不管界上还是界内)都进行迭代更新。等这轮过后,如果没有收敛,第二轮就只针对的样例进行迭代更新。在第一个α选择后,第二个α也使用启发式方法选择,第二个α的迭代步长大致正比于|E1-E2|,选择第二个α能够最大化|E1-E2|。即当E1为正时选择负的绝对值最大的E2,反之,选择正值最大的E2。最后的收敛条件是在界内(0<α<C)的样例都能够遵循KKT条件,且其对应的α只在极小的范围内变动。
- 完整的Platt SMO算法,书上数据平均时间0.78秒,下面是用到的辅助函数和结构。
1 | class optStruct: |
- 完整SMO的内循环
1 | def innerL(i, oS): |
- 下面是外循环代码
1 | def smoP(dataMatIn, classLabels, C, toler, maxIter): #full Platt SMO |
- 下面是求W和分类函数
1 | def calcWs(alphas, dataArr, classLabels): |
核函数
来自《数据挖掘导论》,并参考知乎上关于机器学习中核函数的讨论
径向基函数(RBF):是一个采用向量作为自变量的函数,能够基于向量距离运算输出一个标量。
核函数和SVM是两个正交的概念,通过核函数可以将当前维度无法线性划分的数据转移到高维(无穷维度)。SVM核的变换后空间也称为再生核希尔伯特空间(RKHS),使用核函数计算点积开销更小,并且计算在原空间进行,无须担心维灾难问题。
- Mercer定理:对非线性SVM使用的核函数的主要要求是,必须存在一个相应的变换,使得计算一对向量的核函数等价于在变换后的空间中计算这对向量的点积。核函数K可以表示为
K(u, v) = Φ(u)Φ(v)
,当且仅当对于任意满足∫g(x)^2dx
为有限值得函数g(x),则∫K(x,y)g(x)g(y)dxdy >= 0
。满足这个定理的核函数称为正定核函数。例如K(x,y) = (x·y+1)^p
,K(x,y) = e^(-(|x-y|^2)/2σ^2))
,K(x,y) = tanh(ky·y - δ)
。 - 核函数转换
1 | def kernelTrans(X, A, kTup): |
- 下面是测试函数,需要对函数innerL和calcEk和类optStruct做一定修改。
1 | def testRbf(k1=1.3): |
- 原代码需要修改的地方
1 | def innerL(): |
kNN手写问题回顾
- SVM是二类分类器,将非9的数字判为-1,否则判为1。
- Code - testDigits - svmMLiA.py
1 | def img2vector(filename): |
- 修改径向基核函数的参数σ,观察错误率。σ下降,则训练错误率降低,测试错误率上升。最小的训练错误率并不对应于最小的向量支持数目。另外线性和函数的效果并不很糟糕,可以牺牲线性核函数的错误率来换取分类速度的提高。
多类分类问题
- 第一种方法将多类问题分解为K个二类问题,对于类别yi,属于类别yi的为一类,不属于yi的为另一类。此方法称为一对其他(1-r)方法。
- 第二种方法为一对一(1-1)方法,构建K(K-1)/2个分类器,没一个分类器用来区分一对类(yi,yj),此时忽略其他类的样本。
- 以上两种方法都使用二类分类器的组合预测,并投票表决,票数多的分类为最终分类。这种方法可能导致不同类的平局。
- 纠错输出编码:1-r和1-1方法都对二元分类的错误太敏感。可以参考海明编码,为每个类别分配一个码字,码字的每个二进制位训练一个二元分类器。
支持向量机总结
支持向量机是一种二类分类器,通过求解一个二次优化问题来最大化分类间隔。通过SMO算法每次优化两个α可以提升SVM的训练速度。核函数可以从一个低维空间的非线性数据映射到一个高维空间的线性数据i,此部分可以参考知乎。
SVM问题可以表示为凸优化问题,利用已知的有效算法发现目标函数的全局最小值。通过最大化决策边界的边缘来控制模型的能力,用户必须提供其他参数,如核函数类型、松弛变量带来的惩罚C。
参考文献: 《机器学习实战 - 美Peter Harrington》、《数据挖掘导论 - 美Pang-Ning Tan等》
参考的文章等:July的文章,JerryLead的文章,王赟 Maigo等在知乎上的答案
原创作品,允许转载,转载时无需告知,但请务必以超链接形式标明文章原始出处(https://forec.github.io/2016/02/11/machinelearning6/) 、作者信息(Forec)和本声明。