一、感知机模型

感知机模型是一种二分类的线性分类模型,输入为输入空间(特征空间)的n维向量,输出为{-1,1},属于判别模型。

f(x)=sign(w*x+b),w,x∈Rn,b∈R

感知机的假设空间{f|f(x)=w*x+b}

w*x+b是特征空间中的一个超平面,w是超平面的法向量,b是超平面的截距。这个超平面将空间划分为两个部分。这个超平面S又称为分离超平面。

二、感知机学习策略

2.1 数据集的线性可分性

某数据集线性可分↔存在完全正确的分离超平面。即,对于所有y=1的实例,w*x+b>0;对于所有y=-1的实例,w*x+b<0

2.2 感知机学习策略

感知机的学习目标是找到一个完全正确的分离超平面,一个自然的想法是将损失函数定为误分类数,但是这样损失函数对w和b就不可导。

另一种思路是将损失函数定为误分类点到超平面的距离。对于空间中的一个点,它到平面内的距离为|w*x+b|/||w||

对于误分类的点,我们希望它的距离为正数。而已知的是,对于误分类的点,对于所有y=1的实例,w*x+b<0;对于所有y=-1的实例,w*x+b>0。

故,可以定义误分类的点到分离超平面的距离为-y*(w*x+b)/||w||

不考虑w的模长,再将所有距离求和,则可以得到感知机的损失函数:-∑y*(w*x+b)。它是w和b的连续可导函数,其中的x是所有的误分类点。感知机的学习策略就是选择使损失函数最小的模型。

2.3 感知机学习算法

 

2.3.1 原始形式

2.3.2 对偶形式