我们可能已经构建好了一些不错的分类器,这时我们可以通过集成方法将他们组合成一个更强的预测器。目前有几种流行的集成方法,包括bagging、boosting、stacking等。
1.投票分类器
聚合每个分类器的预测,将得票最多的结果作为预测类别,被称为硬投票分类器。
如果所有分类器都能估算出类别的概率,那么可以将概率取平均数,以概率最高的类别作为预测,这被称为软投票法。
2.bagging与pasting
投票分类器的方法是使用不同的训练算法。还有另一种方法是每个预测器使用的算法相同,但是在不同的训练集随机子集上进行训练。采样时如果将样本放回,这种方法叫作bagging,采样时样本不放回,叫pasting。bagging和pasting都允许实例在多个预测器中被多次采样,但是只有bagging允许训练实例被同一个预测器多次采样。
每个预测器的偏差都高于在原始训练集上训练的单个预测器,但是通过聚合,却可以降低偏差与方差。总体而言,集成的偏差与直接在原始数据上训练的偏差相近,但是方差更低。
3.随机补丁和随机子空间
对训练实例和特征都进行抽样,这称为随机补丁方法,而保留所有训练实例,但是对特征进行抽样,这称为随机子空间法。
4.boosting
提升法是指可以将几个弱分类器结合成一个强学习器的任意集成方法。大多数提升法的总体思路是循环训练预测器,每一次都对其前序做出一些改正。目前最流行的方法是AdaBoost和梯度提升。
Adaboost更多关注前序欠拟合的训练实例,从而使新的训练器越来越专注于难缠的问题。
梯度提升让新的预测器针对前一个预测器的残差进行拟合。
5.堆叠法
训练一个预测器来执行聚合。将训练集分为两部分。