决策树,顾名思义,即以建树的形式来做决策。
优点:模型具有可读性,分类速度快。
缺点:容易过拟合,数据中的小变化会影响结果,不稳定,每一个节点的选择都是贪婪算法,不能保证全局最优解。
步骤:特征选择,决策树的生成,决策树的修减。
主要算法:ID3,C4.5,CART算法。

5.1决策树模型与学习

定义:分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成。节点有两种类型,内部节点和叶子结点。内部节点表示一个特征或者树形,叶节点表示一个类。
图片说明

决策树分类时,把实例分类到条件概率较大的子节点上。

5.2特征选择

信息熵表示的随机变量的不确定程度。
量标准-熵:
      熵是表示随机变量不确定性的度量,即事物的混乱程度。

        
        熵值低,相对稳定。
        p=0或p=1时,H(p)=0,没有不确定性
        p=0.5时,H(p)=1,不确定性最大
    ID3:信息增益
      特征属性值多的信息增益大,不能处理特征属性值连续的情况
    C4.5:信息增益率,考虑自身熵
    CART:使用了GINI系数作为衡量标准
信息增益越大,则意味着用属性a来进行划分所获得的"纯度提升"越大,因此,我们可用信息增益来进行决策树的划分属性选择。

著名的ID3 决策树学习算就是以信息增益为准则来选择划分属性。

5.3决策树的剪枝

决策树剪枝策略
    决策树过拟合风险很大,理论上可以完全分得开数据.
      剪枝策略:
        预剪枝:边建立决策树边进行剪枝的操作,实用
          控制树的深度。 样本数和节点数
          叶子节点个数,叶子节点样本数,信息增益量
        后剪枝:完成决策树后进行剪枝操作
          通过一定的衡量标准
          叶子节点越多,损失越大