《机器学习》读书笔记

6.1 间隔与支持向量
对于y(w'x+b)=1的数据点，即下图中位于w'x+b=1或w'x+b=-1上的数据点，我们称之为“支持向量”（support vector），两个异类支持向量到超平面的距离之和称为“间隔”（margin）。
支持向量机（Support Vector Machine，简称SVM）

6.2 对偶问题
为了一个带约束的凸二次规划（convex quadratic programming）问题，可以使用现成的优化计算包求解，但由于SVM的特殊性，一般我们将原问题变换为它的“对偶问题”（dual problem），接着再对其对偶问题进行求解。为什么通过对偶问题进行求解，有下面两个原因：

一是因为使用对偶问题更容易求解；
二是因为通过对偶问题求解出现了向量内积的形式，从而能更加自然地引出核函数。
对偶问题，顾名思义，可以理解成优化等价的问题，更一般地，是将一个原始目标函数的最小化转化为它的对偶函数最大化的问题。

6.3 核函数
由于上述的超平面只能解决线性可分的问题，对于线性不可分的问题，例如：异或问题，我们需要使用“核函数”（kernel function）将其进行推广。一般地，解决线性不可分问题时，常常采用映射的方式，将低维原始空间映射到高维特征空间，使得数据集在高维空间中变得线性可分，从而再使用线性学习器分类。如果原始空间为有限维，即属性数有限，那么总是存在一个高维特征空间使得样本线性可分。
图片说明
定理6.1表明，只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。事实上，对于一个半正定核矩阵，总能找到一个与之对应的映射。换言之，任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”（Reproducing Kernel Hilbert Space，简称RKHS）的特征空间。

6.4 软间隔与正则化
具体来说，前面介绍的支持向量机形式是要求所有样本均满足约束，即所有样本都必须划分正确，这称为“硬间隔”（hard margin），而“软间隔”（soft margin）则是

允许某些样本不满足约束y(w'x+b)≥1；
在最大间隔化的同时，不满足约束的样本应尽可能少。
“正则化”可理解为一种“罚函数法”，即对不希望得到的结果施以惩罚，从而使得优化过程趋向于希望目标。

6.5 支持向量回归
“表示定理”（representer theorem）:
图片说明
人们发展出一系列基于核函数的学习方法，统称为“核方法”（kernel methods）。最常见的，是通过“核化”（即引入核函数）来将线性学习器拓展为非线性学习器。
核线性判别分析（Kernelized Linear Discriminant Analysis，简称KLDA）