2.4 比较检验
在比较学习器泛化性能的过程中,统计假设检验(hypothesis test)为学习器性能比较提供了重要依据,即若A在某测试集上的性能优于B,那A学习器比B好的把握有多大。
2.4.1 假设检验
假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想。
可通过测试错误率来推测泛化错误率的分布。
二项检验(binomial test):在α的显著度下,假设“ε≤ε0”不能被拒绝,即能以1-α的置信度认为,学习器的泛化错误率不大于ε0;否则该假设可被拒绝,即在α的显著度下可认为学习器的泛化错误率大于ε0。
t检验(t-test):若τt位于临界值范围内,则不能拒绝假设“μ=ε0”,即可认为泛化错误率为ε0,置信度为1-α;否则可拒绝该假设,即在该显著度下可认为泛化错误率与ε0有显著不同。α常用取值有0.05和0.1.
2.4.2 交叉验证t检验
若两个学习器的性能相同,则它们使用相同的训练/测试集得到的测试错误率应相同。
欲进行有效的假设检验,一个重要前提是测试错误率均为泛化错误率的独立采样。然而,通常情况下由于样本有限,在使用交叉验证等实验估计方法时,不同轮次的训练***有一定程度的重叠,这就使得测试错误率实际上并不独立,会导致过高估计假设成立的概率。为缓解这一问题,可采用“5×2交叉验证”法(即做5次2折交叉验证)。
2.4.3 McNemar检验
MaNemar主要用于二分类问题,与成对t检验一样也是用于比较两个学习器的性能大小。主要思想是:若两学习器的性能相同,则A预测正确B预测错误数应等于B预测错误A预测正确数,即e01=e10,且|e01-e10|服从N(1,e01+e10)分布。
检验的方法:做出假设→求出满足显著度的临界点→给出拒绝域→验证假设。
2.4.4 Friedman检验与Nemenyi后续检验
上述的三种检验都只能在一组数据集上,F检验则可以在多组数据集进行多个学习器性能的比较,基本思想是在同一组数据集上,根据测试结果(例:测试错误率)对学习器的性能进行排序,赋予序值1,2,3。
第3章 线性模型
3.1 基本形式
线性模型(linear model)和非线性模型(nonlinear model)
3.2 线性回归
“线性回归”(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。均方误差实回归任务中最常用的性能度量,它对应了常用的欧几里得距离或简称“欧氏距离”(Euclidean distance)。基于均方误差最小化来进行模型求解的方法称为“最小二乘法”(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小
“多元线性回归”(multivariate linear regression)
“对数线性回归”(log-linear regression)。对数线性回归是广义线性模型(generalized linear model)在g(•)=ln(•)时的特例。
3.3 对数几率回归
“单位阶跃函数”(unit-step function):若预测值大于零就判为正例,小于零则判为反例,预测值为临界值零则可任意判别。对数几率函数(logistic function)是在一定程度上近似单位阶跃函数的“替代函数”(surrogate function),且单调可微。
用线性回归模型的预测结果去逼近真实标记的对数几率,其对应的模型称为“对数几率回归”(logistic regression,亦称logit regression)。虽然它的名字是“回归”,但实际却是一种分类学习方法。
3.4 线性判别分析
线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法,亦称“Fisher判别分析”。其思想为:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
3.5 多分类学习
最经典的拆分策略有三种:“一对一”(One vs. One,简称OvO)、“一对其余”(One vs. Rest,简称OvR)和“多对多”(Many vs. Many,简称MvM)。
MvM是每次将若干个类作为正类,若干个其他类作为反类。OvO和OvR是MvM的特例。MvM的正、反类构造必须有特殊的设计,不能随意选取。
最常用的MvM技术:“纠错输出码”(Error Correcting Output Codes,简称ECOC)。ECOC是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。