sklearn的基本建模流程
1. 实例化,建立评估模型对象 (实例化时需要使用的参数)
2. 通过模型接口训练模型
3. 通过模型接口提取需要的信息

ps:第二步和第三步要了解使用的模型有哪些属性和接口可以使用

例子

from sklearn import tree # 导入需要的模块

clf = tree.DecisionTreeClassifier() # 实例化
clf = clf.fit(x_train,y_train) # 用训练集数据训练模型
result = clf.score(x_test,y_test) # 导入测试集,从接口中调用需要的信息

一、决策树(Decision Tree)

决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用
决策树算法的本质是一种图结构

关键概念:

  • 根节点:没有进边,有出边。包含最初的,针对特征的提问。
  • 中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。
  • 叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签

ps:子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点

决策树算法的核心是要解决两个问题:

  1. 如何从数据表中找出最佳节点和最佳分枝
  2. 如何让决策树停止生长,防止过拟合

sklearn中的决策树

  • 模块sklearn.tree,包含的5个类:
模块 用途
tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用
tree.ExtraTreeClassifier 高随机版本的分类树
tree.ExtraTreeRegressor 高随机版本的回归树

1.1 分类树

class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

几个重要参数

1.2.1 criterion

决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”的指标叫做“不纯度”。通常来说,不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上
不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的

criterion的计算方法:

  • 方法一:输入"entropy",使用信息熵(Entropy)
    Entropy(t)=i=0c1p(it)/log2p(it)Entropy(t)=-\sum_{i=0}^{c-1}p(i|t)/log_2 p(i|t)
  • 方法二:输入"gini",使用基尼系数(Gini Impurity)
    Gini(t)=1i=0c1p(it)2Gini(t)=1-\sum_{i=0}^{c-1}p(i|t)^2

1.2 回归树

二、随机森林

三、数据预处理和特征工程

四、主成分分析PCA与奇异值分解SVD

五、逻辑回归与评分卡

六、聚类算法Kmeans

七、支持向量机

八、回归家族:线性回归,岭回归,Lasso与多项式回归

九、朴素贝叶斯

十、XGBoost

附录:参数表及功能