统计学习
定义:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。
学习定义:如果一个系统能够通过执行某个过程该进它的性能,这就是学习。
对象:数据(data)
目的:对数据预测和分析
方法:基于数据构建概率统计模型从而对数据进行预测和分析,通常由unsupervised learning, supervised learning, 和reinforcement learning组成。
基本分类
监督学习
定义:从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习从输入到输出的映射统计规律。
无监督学习
定义:从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
强化学习:
定义:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process),智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
按模型分类
概率模型和非概率模型
在监督模型中,概率模型是生成模型,非概率模型是判别模型。
概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在迪利克雷分配、高斯混合模型。
非概率模型:感知机、支持向量机、k近邻、Adaboost、k均值、潜在语义分析,以及神经网络。
线性模型和非线性模型
如果函数y=f(x)或z=g(x)是线性函数,则称模型是线性模型,否则是非线性模型。
线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析。
非线性模型:核函数支持向量机、AdaBoost、神经网络、深度学习。
参数化模型和非参数化模型
参数模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。
参数化模型:感知机、朴素贝叶斯、逻辑斯谛回归、k均值、高斯混合模型
非参数化模型 :决策树、支持向量机、Adaboost、k近邻、潜在语义分析、概率潜在语义分析、潜在迪利克雷分布
参数化模型适合简单情况,现实中问题往往比较复杂,非参数化模型更加有效。
按技巧分类
1贝叶斯学习
其主要思想是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并利用这个原理进行模型的估计,以及对数据的预测。
2核方法
其主要思想是将输入空间的线性不可分问题转化为特征空间中线性可分的问题
统计学习三要素
方法=模型+策略+算法
模型
在监督学习中,模型就是所要学习的条件概率分布或决策函数。
策略
按照什么样的准则学习或选择最优的模型。
算法
考虑用什么样的计算方法求解最优模型。
模型评估与模型选择
正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化符合奥卡姆剃刀原理。即在所有可能选择的模型中,能够很好地解释已知数据并且十分简单的才是最好的模型
交叉验证
把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。
泛化能力
是指由该学习方法学习到地模型对于未知数据的预测能力,是学习方法本质上重要的性质。
泛化误差
用模型对未知数据预测的误差即为泛化误差。
泛化误差反应了学习方法的泛化能力。事实上,泛化误差就是所学习得到的模型的期望风险。
泛化误差上界
泛化误差往往具有以下性质:它是样本的容量函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。