1.1统计学习

统计学习的方法是基与数据构建统计模型从而对数据进行预测和分析,统计学习由监督学习非监督学习半监督学习强化学习等组成。
统计学习方法的三要素:模型策略算法

1.2 监督学习

监督学习:学习一个模型,是模型能够对于任意给定的输入,对其相应的输出作出良好的预测。
输入空间和输出空间:输入与输出所有可能取值的集合,欧氏空间。
特征向量:
数据集:
回归问题:输入与输出变量均为连续变量。
分类问题:有限个离散变量的预测。
标注问题:输入与输出均是变量序列的预测问题。
联合概率分布:

1.3 统计学习三要素

模型
条件概率分布或者决策函数。
模型的假设空间包含所有可能的条件概率分布或者决策函数。
策略
按照怎样的准则学习或者选择选择最优的模型。
引入损失函数,风险函数
预测值真实值




风险函数:理论上模型关于联合分布的平均意义下的损失(期望损失)。
经验风险:模型关于训练数据集的平均损失。
经验风险最小化(EMR)理论认为经验风险最小的模型就是最好的模型(如极大似然估计),可能出现过拟合现象
结构风险最小化(SRM)等价于正则化,权衡经验风险和模型复杂度,对于未知数据有较好的预测(贝叶斯的最大后验概率估计)。

算法
求解最优化问题

1.4模型评估预测误差

过拟合:一味地追求提高对训练数据的预测能力,所选模型的复杂度往往会比真模型更高,这种现象称为过拟合。

1.5正则化与交叉验证

正则化项一般指模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
简单交叉验证:将一部分数据集分为训练集,一部分分为测试集。
S折交叉验证
留一交叉验证

1.6泛化能力

学习方法的泛化能力指由该方法学习的模型对未知数据的预测能力。

1.7生成模型与判别模型

1.8分类问题

监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。
分类器对于新的输入进行输出的预测称为分类。
分类器性能指标:分类准确率 损失函数(0-1损失函数)

许多统计学习方法用于分类:K临近法,感知机,朴素贝叶斯法,决策树,决策列表等。

1.9标注问题

分类问题的一个推广,更复杂的结构预测问题的简单形式。
标注常用的统计学习方法:隐马尔可夫模型模型,条件随机场。

1.10回归问题

回归用于预测输入变量和输出变量的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
按照输入变量的个数分为一元回归和多元回归。
按照输入变量和输出变量的关系分为线性回归和非线性回归。
常用损失函数:平方损失函数 例子:最小二乘法