一、感知机模型
感知机模型是一种二分类的线性分类模型,输入为输入空间(特征空间)的n维向量,输出为{-1,1},属于判别模型。
f(x)=sign(w*x+b),w,x∈Rn,b∈R
感知机的假设空间{f|f(x)=w*x+b}
w*x+b是特征空间中的一个超平面,w是超平面的法向量,b是超平面的截距。这个超平面将空间划分为两个部分。这个超平面S又称为分离超平面。
二、感知机学习策略
2.1 数据集的线性可分性
某数据集线性可分↔存在完全正确的分离超平面。即,对于所有y=1的实例,w*x+b>0;对于所有y=-1的实例,w*x+b<0
2.2 感知机学习策略
感知机的学习目标是找到一个完全正确的分离超平面,一个自然的想法是将损失函数定为误分类数,但是这样损失函数对w和b就不可导。
另一种思路是将损失函数定为误分类点到超平面的距离。对于空间中的一个点,它到平面内的距离为|w*x+b|/||w||
对于误分类的点,我们希望它的距离为正数。而已知的是,对于误分类的点,对于所有y=1的实例,w*x+b<0;对于所有y=-1的实例,w*x+b>0。
故,可以定义误分类的点到分离超平面的距离为-y*(w*x+b)/||w||
不考虑w的模长,再将所有距离求和,则可以得到感知机的损失函数:-∑y*(w*x+b)。它是w和b的连续可导函数,其中的x是所有的误分类点。感知机的学习策略就是选择使损失函数最小的模型。
2.3 感知机学习算法
2.3.1 原始形式
2.3.2 对偶形式