感知机

$感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。$

感知机对应于输入空间（特征空间）中，将实例划分为正负两类的分离超平面，属于判别模型。

2.1 感知机模型

定义：假设输入空间（特征空间）是 $图片说明$ ,输出空间是 $图片说明$ ，输入 $图片说明$ 表示实例的特征向量，对应于输入空间（特征空间）的点，输出 $图片说明$ 表示实例的类别。由输入空间到输出空间的如下函数: $\\ f(x)=sign(w\cdot x+b)$ 称为感知机。其中,w和b感知机模型参数。 $\\ sign(x)=\left\{ \begin{aligned} \ +1 ,x\geq0 \\ \ -1,x<0 \end{aligned} \right.$
感知机模型是一种线性分类模型。
几何解释：线性方程 $w\cdot x+b=0$
对于特征空间的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距，超平面将特征空间划分为两部分。

2.2 感知机学习策略

数据集的线性可分性

给定一个数据集 $\\ T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$
如果存在一个超平面 $S$ ， $\\ w\cdot x+b=0$
能够将数据集的正实例点完全正确地划分到超平面的两侧，则称数据集 $T$ 为线性可分数据集，否则线性不可分。

感知机的学习策略

为了找出这样的超平面，就要确定感知机模型参数 $w,b$ ，并确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

损失函数选择误分类点到超平面 $S$ 的总距离，为此，首先写出输入空间 $R^n$ 中任意一点 $x_0$ 到超平面 $S$ 的距离: $\\ \frac{1}{||w||}|w\cdot x_0+b|\\$

这里, $||w||是w的L_2范数$ 。
关于范数:https://blog.csdn.net/a493823882/article/details/80569888

设误分类点集合为 $M$ ,感知机 $sign(w\cdot x+b)$ 学习的损失函数定义为 $\\ \ L(w,b)=-\sum_{x\in M}y_i(w\cdot x_0+b)$

2.3感知机学习算法

感知机学习算法是误分类驱动的，具体采用随机梯度下降法.首先，任意选取一个超平面 $w_0,b_0$ ，然后采用梯度下降法不断极小化目标函数。极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降。而是随机选取一个误分类点使其梯度下降。
感知机学习算法的原始形式
感知机模型 $f(x)=sign(w\cdot x+b)$
(1)选取初始值 $w_0,b_0$
(2)在训练集中选取数据 $(x_i,y_i)$
(3)如果 $y_i(w\cdot x+b)\leq 0$
$\\ w\leftarrow w+\eta y_i x_i \\ b\leftarrow b+\eta y_i$
(4)跳转至(2)直至训练集中没有误分类点。

可以证明，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将于训练集数据完全正确划分的分离超平面以及感知机模型。

感知机学习算法的对偶形式
这个应该就是一次进行了多次原始形式的操作

感知机模型 $f(x)=sign(\sum_{j=1}^N a_jy_j x_j\cdot x+b)$
$a=(a_1,a_2,...,a_n)^T$
(1)选取初始值 $a\leftarrow 0,b\leftarrow 0$
(2)在训练集中选取数据 $(x_i,y_i)$
(3)如果 $y_i\sum_{j=1}^N a_jy_j x_j\cdot x_i+b\leq 0$
$\\ a_i\leftarrow a_i+\eta \\ b\leftarrow b+\eta y_i$
(4)跳转至(2)直至训练集中没有误分类点。
对偶形式中训练实例仅以内积的形式出现。为了方便，可以预先将训练集中的实例间的内积计算出来并以矩阵的方式存储，这个矩阵就是所谓的Gram矩阵。 $\\ G=[x_i\cdot x_j]_{N\times N}$

当训练集数据集线性可分时，感知机学习算法存在无穷多个解，其解由于不同的初值或者不同的迭代顺序可能有所不同。

《统计学习方法》读书笔记 (2) 感知机

感知机

2.1 感知机模型

2.2 感知机学习策略

数据集的线性可分性

感知机的学习策略

2.3感知机学习算法