决策树,顾名思义,即以建树的形式来做决策。
优点:模型具有可读性,分类速度快。
缺点:容易过拟合,数据中的小变化会影响结果,不稳定,每一个节点的选择都是贪婪算法,不能保证全局最优解。
步骤:特征选择,决策树的生成,决策树的修减。
主要算法:ID3,C4.5,CART算法。
5.1决策树模型与学习
定义:分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成。节点有两种类型,内部节点和叶子结点。内部节点表示一个特征或者树形,叶节点表示一个类。
决策树分类时,把实例分类到条件概率较大的子节点上。
5.2特征选择
信息熵表示的随机变量的不确定程度。
量标准-熵:
熵是表示随机变量不确定性的度量,即事物的混乱程度。
熵值低,相对稳定。
p=0或p=1时,H(p)=0,没有不确定性
p=0.5时,H(p)=1,不确定性最大
ID3:信息增益
特征属性值多的信息增益大,不能处理特征属性值连续的情况
C4.5:信息增益率,考虑自身熵
CART:使用了GINI系数作为衡量标准
信息增益越大,则意味着用属性a来进行划分所获得的"纯度提升"越大,因此,我们可用信息增益来进行决策树的划分属性选择。
著名的ID3 决策树学习算就是以信息增益为准则来选择划分属性。
5.3决策树的剪枝
决策树剪枝策略
决策树过拟合风险很大,理论上可以完全分得开数据.
剪枝策略:
预剪枝:边建立决策树边进行剪枝的操作,实用
控制树的深度。 样本数和节点数
叶子节点个数,叶子节点样本数,信息增益量
后剪枝:完成决策树后进行剪枝操作
通过一定的衡量标准
叶子节点越多,损失越大