一、机器学习研究内容

机器学习致力于研究如何通过计算的手段,利用经验来改善自身的性能。由于经验通常以数据的形式存在,因此机器学习所研究的主要内容,时关于在计算机上从数据中产生模型的算法,即学习算法。

二、基本术语

书中以西瓜作为案例,规定一个西瓜的数据格式如(色泽=青绿;根蒂=蜷缩;敲声=浊响)所示,现假定我们已经收集到了一批西瓜数据。

1. 数据集:这组记录的集合称为一个数据集
2. 样本:数据集中每条记录是关于一个事件或对象(这里为西瓜)的描述,称为一个示例或样本。
3. 属性:反映事件或对象在某方面的表现或性质的事项,例如“色泽”、“根蒂”、“敲声”,称为属性或特征。
4. 属性空间:属性张成的空间称为属性空间或样本空间或输入空间。例如我们可以将色泽、根蒂和敲声作为三个坐标轴,以一个三维空间来描述一个西瓜样本。
5. 特征向量:每个样本都可以在属性空间中找到自己的坐标位置,由于空间中每个点对应一个坐标向量,因此我们也把一个示例称为一个特征向量。
6. 数学符号描述:一般地,令D = {x1, x2, ..., xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例 xi = (xi1; xi2; ...; xid)是d维样本空间 X 中的一个向量,xi ∈ X,其中 xij 是 xi 在第 j 个属性上的取值,d称为样本的维数。
7. 学习:从数据中学得模型的过程称为学习或训练,训练过程中使用的数据称为训练数据,其中每个样本称为一个训练样本,训练样本组成的集合称为训练集。
8. 标记:计算机需要知道训练样本对应的结果信息,才能知道自己的预测结果是否正确,从而不断进行自我调整。这里关于示例的结果信息称为标记(标签);拥有了标记的信息示例称为样例。一般用(xi, yi)表示第 i 个样例,其中 yi ∈ Y是示例 xi 的标记,Y 是所有标记的集合,称为标记空间。
9. 分类与回归:若我们预测的是离散值,则此类任务称为分类;若预测的是连续值,则此类学习任务为回归。
10. 测试:学得模型后,使用该模型进行预测的过程称为测试,被预测的样本称为测试样本。
11. 聚类:将训练集中的样本可以分成若干组,每组称为一个簇,这些簇可能对应一些潜在的概念划分。这样的学习过程有助于我们了解数据内在的规律,能更为深入地分析数据建立基础。
12. 有/无监督学习:训练数据有标签则为监督学习,训练数据无标签则为无监督学习。分类和回归属于前者代表,聚类属于后者代表。
13. 泛化:学得模型适用于新样本的能力,称为泛化能力。泛化能力越强,学得的模型越好。
14. 假设空间:在训练模型的过程中所有假设组成的空间称为假设空间,简单来讲就是属性所有可能取值组成的可能样本空间,用 H 表示。我们可以把学习过程看作一个在假设空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。
15. 版本空间:与已知数据集一致的所有假设的子集集合。
16. 奥卡姆剃刀原则:若有多个假设与观察一致,选择最简单的那个。
17. NFL定理:无论学习算法Ea多么聪明,学习算法Eb多么笨拙,它们的期望性能是相同的。该定理的意义在于让我们认识到脱离具体问题,空泛地谈论什么学习算法更好毫无意义。