分类

本章中讲到了三种分类方法:

决策树分类

在决策树分类中详细介绍了三种决策树的属性选择度量:

信息增益

分区D为标记类元组的训练集。
D的熵,即所需要的期望信息为:

按某属性A划分D,则该期望值为:

属性A的信息增益值为:

ID3采用信息增益。
信息增益度量偏向于具有许多输出的测试,即偏向具有大量值的属性。

增益率

但若每个属性的元组个数为1,此时的信息增益无法对属性的划分提供有效信息。
以属性A划分D,划分点的值:

增益率:

C4.5采用增益率。
增益率的出现即试图克服信息增益的偏倚。但增益率倾向于产生不平衡的划分,其中一个分区比其他分区小得多。
信息增益度量关于分类基于同样划分的所获得的信息。

Gini指数

Gini指数定义为:

以属性A划分的基尼指数为:

属性A的不纯度为:

CART使用基尼指数。
基尼指数度量数据分区或训练元组集D的不纯度。最终选择基尼指数最小的指数,会产生较大的不纯度。
基尼指数偏向于多值属性,并且当类的数量过大时,由于计算量较大,会有困难。倾向于导致相等大小的分区和纯度。

朴素贝叶斯分类

首先介绍贝叶斯定理中的基本概念:

即将预测X 具有最高后验概率的类。

后验概率

P(H|X)是后验概率。或在条件X下,H的后验概率。假设数据元组限于分别由属性age和income描述的顾客,而X是一位25岁,收入为4万元的顾客。令H为某种假设,如顾客将购买计算机。
则P(H|X)反映当已知顾客X的属性值时,顾客X购买计算机的概率。

先验概率

P(H),H的先验概率。是任意给定顾客将购买计算机的概率,而不管他们的年龄、收入等。P(H)独立于X。

朴素贝叶斯朴素在哪里?

朴素贝叶斯假定一个属性值在给定类上的影响独立于其他属性的值。这一假定成为类条件独立性。
也就是简化了P(X|H)的计算。

对于存在零概率值时,应如何处理?

拉普拉斯估计法:对q个类的计数都加上1,在对应分母上都加上q。

IF-THEN规则分类

模型评估与选择

评估分类器性能度量

混淆矩阵用来评估分类器的质量,对于二分类问题,它显示真正例TP、真负例TN、假正例FP、假负例FN。

而评估性能度量包括:
准确率、灵敏度(召回率)、特效性、精度、F1和Fp。

当感兴趣的主类占少数时,过分依赖准确率度量可能受骗
3%例子。

数据集划分

  • 保持
  • 随机抽样
  • 交叉验证(k-fold)
  • 自助法

显著性检验和ROC、AUC曲线

显著性检验用来评估两个分类器准确率的差别是否出于偶然。(这个很有用)
ROC曲线绘制一个或多个分类器的真正例率与假正例率。

提升模型准确度:组合方法

  • 装袋(有放回抽样)
  • 提升(有权重)
  • 随机森林(决策树)

类不平衡问题

  • 过抽样和欠抽样
  • 阈值移动
  • 组合技术