1.1 引言
机器学习(Machine Learning)
致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
形式化定义:
假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
机器学习的主要内容
机器学习的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。
模型:泛指从数据中学的的结果。 指全局性的结果。(eg: 一颗决策树)
模式:指局部性的结果。(eg: 一条规则)
1.2 基本术语
(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=浊响), (色泽=青绿;根蒂=硬挺;敲声=清脆), ...,每对括号内是一条记录,“=”意思是“取值为”。
- 数据集(data set):一组记录的集合。
- 示例(instance )& 样本(sample):关于一个事件或对象的描述。
- 属性(attribute)& 特征(feature):反映事件或对象在某方面的表现或性质的事项。
- 属性值(attribute value):属性上的取值。
- 属性空间(attribute space)、样本空间(sample space)&输入空间:属性张成的空间。
空间中每一个点对应一个坐标向量,把每一个示例称为一个特征向量(feature vector)。
- 学习(learning)& 训练(training):从数据中学得模型的过程
- 训练数据(training data):训练过程中使用的数据
- 训练样本(training sample):训练数据中的每一个样本
- 训练集(training set):训练样本组成的集合
- 假设(hypothesis):学得模型对应数据的某种潜在的规律
- 真实(ground-truth):潜在规律的自身
- 模型=学习器(learner):学习算法在给定数据和参数空间上的实例化
- 标记(label):关于示例结果的信息
- 样例(sample):拥有了标记信息的示例
标记空间(label space) & 输出空间
分类(classification):欲预测离散值的学习任务。
回归(regression):欲预测连续值的学习任务。
二分类(binary classification)任务:正类(positive class) 反类(negative class)
多分类(multi-class classification)任务
聚类(clustering):对训练集中的样本分成若干个组
簇(cluster):聚类中的每个组
泛化能力(generalization):学得模型适用于新样本的能力
泛化能力的强弱可以用适用于样本空间的范围来判定
有监督学习(supervised learning)
它从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。一句话:给定数据,预测标签。
无监督学习(unsupervised learning)
它从无标记的训练数据中推断结论。最典型的无监督学习就是聚类分析,它可以在探索性数据分析阶段用于发现隐藏的模式或者对数据进行分组。一句话:给定数据,寻找隐藏的结构。
独立同分布(independent and identically distributed,简称 i.i.d.)
通常假设样本空间中全体样本服从一个未知“分布”(distribution),我们获得的每个样本都是独立地从这个分布上采样获得的。