目录
目录
统计学习包括监督学习、非监督学习、半监督学习和强化学习,本书主要讨论的是监督学习。
区分分类问题与回归问题的标准:输出变量是否为连续值。
假设空间:模型∈由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设看空间的确定意味着学习范围的确定。
一、交叉验证
常见的模型选择方法有正则化和交叉验证。
如果样本充足,常见的方法是随机地将数据集分割成训练集、验证集和测试集。在学习到的不同(复杂度的)模型中,分别用验证集进行评估,并选择对验证集有最小预测误差的模型。
当样本不足的时候,可以采用交叉验证的方法。
1.1 简单交叉验证
将模型划分成训练集和测试集,选择对测试集有最小预测误差的模型。即,将验证集和测试集“合二为一”.
1.2 S折交叉验证
将模型划分成S个互不相交的、大小相等的子集。将其中S-1个子集作为训练集,余下1个子集进行测试,重复S次,取均值作为平均测试误差。选择平均测试误差最小的模型。
1.3 留一交叉验证
S折交叉验证的一种特殊情况,S=N,即每次只留下一个样本点用于测试。通常用于数据非常缺乏的情况。
二、生成模型与判别模型
监督学习方法可以分成生成方法和判别方法,两种方法产生的模型称为生成模型和判别模型。前者先学习联合概率分布,再计算条件概率分布;后者直接计算条件概率分布或者决策函数。
生成方法的特点:可以还原出联合概率分布;收敛更快;存在隐变量时仍然可以用生成方法学习。
判别方法的特点:直接面对预测,准确率更高;可以对数据进行各种抽象、定义特征、使用特征,从而简化学习问题