《机器学习》读书笔记第七八章

1、贝叶斯决策论（Bayesian decision theory）

是概率框架下实施决策的基本方法。基于后验概率可获得将样本x误分类所产生的期望损失（expected loss），即在样本x上的“条件风险”（conditional risk）

我们的任务是寻找一个判定准则，以最小化总体风险。——贝叶斯判定准则（Bayes decision rule）：最小化总体风险，只需在每个样本上选择使conditional risk最小的类别标记。此时的分类器成为“贝叶斯最优分类器”（Bayes optimal classifier），与之对应的总体风险成为“贝叶斯风险”（Bayes risk）。1- Bayes_risk 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率，往往难以直接获得。机器学习要实现的是基于有限训练样本集尽可能准确地估计出后验概率。主要有两种策略：“判别式模型”（discriminative models）、“生成式模型”（generative models）。

2、极大似然估计（Maximum Likelihood Estimation——MLE）

是根据数据采样估计概率分布参数的经典方法。是试图在参数所有可能的取值中，找到一个能使数据出现在数据集中的“可能性”最大的值。

需要注意的是，这种参数化的方法虽然能使类条件概率估计变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。

3、朴素贝叶斯分类器

基于贝叶斯公式来估计后验概率的主要困难在于：类条件概率是所有属性的联合概率，难以从有限的训练样本直接估计而得。为避开此障碍，“朴素贝叶斯分类器”（naive Bayes classifier）采用了“属性条件独立性假设”（attribute conditional independence assumption）：对已知类别，假设所有属性相对独立，换言之，假设每个属性独立地对分类结果发生影响。

显然，朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率，并为每个属性估计条件概率。

为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，在估计概率值时通常要进行“平滑”（smoothing），常用“拉普拉斯修正”（Laplacian correction），避免了因训练样本不充分而导致概率估计值为零的问题，而且在训练集变大时，修正过程所引入的先验（prior）的影响也会逐渐变得可忽略，使得估值渐趋向于实际概率值。

现实任务中贝叶斯分类器，若对预测速度要求较高，可将其涉及的所有概率估值事先计算好存储起来，这样预测时“查表”即可判别；若任务数据更替频繁，则可采用“懒惰学习”（lazy learning）方法，先不进行任何训练，待接收到预测请求时在根据当前数据集进行概率估值；若数据不断增加，则可在现有估值基础上，仅对新增样本的属性值所涉及的概率估值进行计数修正即可实现“增量学习”

4、半朴素贝叶斯分类器

为降低贝叶斯公式中估计后验概率的困难，朴素贝叶斯分类器采用了属性条件独立性假设，但现实任务中此假设也很难成立，于是人们尝试对属性条件独立性假设进行一定程度的放松，由此产生了一类为“半朴素贝叶斯分类器”（semi-naive Bayes classifiers）的学习方法。

采用“独依赖估计”（One-Dependent Estimator——ODE）策略：假设每个属性在类别之外最多仅依赖于一个其他属性。

5、贝叶斯网（Bayesian network）亦称“信念网”（belief network）

其借助又向无环图（Directed Acyclic Graph——DAG）来刻画属性之间的依赖关系，并使用条件概率表（conditional Probability Table——CPT）来描述属性的联合概率分布。

1）结构

贝叶斯网结构有效地表达了属性间的条件独立性。给定父节点集，贝叶斯网假设每个属性与它的非后裔属性独立。贝叶斯网中三个变量之间的典型依赖关系有：同父结构、V型结构、顺序结构。

“边际独立性”（marginal independence）

“道德图”（moral graph）

2）学习

贝叶斯网学习的首要任务就是根据训练数据集来找出结构最“恰当”的贝叶斯网。“评分搜索”是求解这一问题的常用办法。先定义一个评分函数（score function），以此来评估贝叶斯网与训练数据的契合程度，然后基于这个评分函数来寻找结构最优的贝叶斯网。符合“最小描述长度”（Minimal Description Length——MDL）准则。

不幸的是，从所有可能的网络结构空间搜索最优贝叶斯网结构是一个NP难问题，难以快速求解。有两种常用策略能在有限时间内求得近似解：第一种是贪心法；第二种是通过网络结构施加约束来削减搜索空间。

3）推断

通过抑制变量观测值来推测待查询变量的过程称为“推断”（inference），已知变量观测值称为“证据”（evidence）.

现实任务中，贝叶斯网的近似推断常使用吉布斯采样（Gibbs sampling）来完成，这是一种随机采样方法。

实质上，吉布斯采样是在贝叶斯网所有变量的联合状态空间与证据一致的子空间进行“随机漫步”（random walk），每一步依赖于前一步的状态，这是一个“马尔可夫链”（Markov chain）

6、EM算法

属性中存在“未观测”的变量，称为“隐变量”。EM（Expectation-Maximization）算法是常用的估计参数隐变量的利器。他是一种迭代式的方法：若模型参数已知，则可根据训练数据推断出最优隐变量的值；反之，若隐变量的值已知，则可方便地对模型参数做极大似然估计。

简要来说，EM算法使用两个步骤交替计算：第一步是期望（E）步，利用当前估计的参数值来计算对数似然的期望值；第二步是最大化（M）步，寻找能使E步产生的似然期望最大化的参数值。然后得到的参数值重新被用于E步，。。。直至收敛到局部最优解。

事实上，隐变量估计问题也可通过梯度下降等优化算法求解，但由于求和项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦；而EM算法则可看作是一种非梯度优化方法。

第八章

一、个体与集成
集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifier system）、基于委员会的学习（committee-based learning）等。

先组织一组“个体学习器”，再用某种策略将他们结合起来。

Boosting：个体学习器间存在强依赖关系、必须串行生成的序列化方法
Bagging 和 “随机森林” （Random Forest)：个体学习器间不存在强依赖关系、可同时生成的并行化方法
二、Boosting
先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T TT，最终将这T TT个基学习器进行加权结合。

三、Bagging与随机森林
（一）Bagging
我们先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中，这样，经过m mm次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本在采样集里多次出现，有的则从未出现。然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。

（二）随机森林
传统决策树在选择划分属性时是在当前结点的属性集合（假定有d dd个属性）中选择一个最优属性；而在 RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k kk属性的子集，然后再从这个子集中选择一个最优属性用于划分．这里的参数k控制了随机性的引入程度：若令k = d k= dk=d，则基决策树的构建与传统决策树相同；若令k = 1 k= 1k=1，则是随机选择一个属性用于划分；一般情况下，推荐值k = log ⁡ 2 d k= \log_2 dk=log
2

d。

随机森林简单、容易实现、计算开销小，令人惊奇的是，它在很多现实任务中展现出强大的性能，被誉为 “代表集成学习技术水平的方法” 。

四、结合策略
有几个好处：

从统计的方面来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等性能，此时若使用单学习器可能因误选而导致泛化性能不佳，结合多个学习器则会减小这一风险；
从计算的方面来看，学习算法往往会陷入局部极小，有的局部极小点所对应的泛化性能可能很糟糕，而通过多次运行之后进行结合，可降低陷入糟糕局部极小点的风险；
从表示的方面来看，某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大，有可能学得更好的近似。
平均法：简***均法、加权平均法
投票法：绝对多数投票法、相对多数投票法、加权投票法
五、多样性
误差-分歧分解
多样性度量
多样性增强