6.1 间隔与支持向量
对于y(w'x+b)=1的数据点,即下图中位于w'x+b=1或w'x+b=-1上的数据点,我们称之为“支持向量”(support vector),两个异类支持向量到超平面的距离之和称为“间隔”(margin)。
支持向量机(Support Vector Machine,简称SVM)
6.2 对偶问题
为了一个带约束的凸二次规划(convex quadratic programming)问题,可以使用现成的优化计算包求解,但由于SVM的特殊性,一般我们将原问题变换为它的“对偶问题”(dual problem),接着再对其对偶问题进行求解。为什么通过对偶问题进行求解,有下面两个原因:
- 一是因为使用对偶问题更容易求解;
- 二是因为通过对偶问题求解出现了向量内积的形式,从而能更加自然地引出核函数。
对偶问题,顾名思义,可以理解成优化等价的问题,更一般地,是将一个原始目标函数的最小化转化为它的对偶函数最大化的问题。
6.3 核函数
由于上述的超平面只能解决线性可分的问题,对于线性不可分的问题,例如:异或问题,我们需要使用“核函数”(kernel function)将其进行推广。一般地,解决线性不可分问题时,常常采用映射的方式,将低维原始空间映射到高维特征空间,使得数据集在高维空间中变得线性可分,从而再使用线性学习器分类。如果原始空间为有限维,即属性数有限,那么总是存在一个高维特征空间使得样本线性可分。
定理6.1表明,只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射。换言之,任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”(Reproducing Kernel Hilbert Space,简称RKHS)的特征空间。
6.4 软间隔与正则化
具体来说,前面介绍的支持向量机形式是要求所有样本均满足约束,即所有样本都必须划分正确,这称为“硬间隔”(hard margin),而“软间隔”(soft margin)则是
- 允许某些样本不满足约束y(w'x+b)≥1;
- 在最大间隔化的同时,不满足约束的样本应尽可能少。
“正则化”可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。
6.5 支持向量回归
“表示定理”(representer theorem):
人们发展出一系列基于核函数的学习方法,统称为“核方法”(kernel methods)。最常见的,是通过“核化”(即引入核函数)来将线性学习器拓展为非线性学习器。
核线性判别分析(Kernelized Linear Discriminant Analysis,简称KLDA)