【西瓜书读书笔记】第一章绪论

一、机器学习研究内容

机器学习致力于研究如何通过计算的手段，利用经验来改善自身的性能。由于经验通常以数据的形式存在，因此机器学习所研究的主要内容，时关于在计算机上从数据中产生模型的算法，即学习算法。

二、基本术语

书中以西瓜作为案例，规定一个西瓜的数据格式如（色泽=青绿；根蒂=蜷缩；敲声=浊响）所示，现假定我们已经收集到了一批西瓜数据。

1. 数据集：这组记录的集合称为一个数据集
2. 样本：数据集中每条记录是关于一个事件或对象（这里为西瓜）的描述，称为一个示例或样本。
3. 属性：反映事件或对象在某方面的表现或性质的事项，例如“色泽”、“根蒂”、“敲声”，称为属性或特征。
4. 属性空间：属性张成的空间称为属性空间或样本空间或输入空间。例如我们可以将色泽、根蒂和敲声作为三个坐标轴，以一个三维空间来描述一个西瓜样本。
5. 特征向量：每个样本都可以在属性空间中找到自己的坐标位置，由于空间中每个点对应一个坐标向量，因此我们也把一个示例称为一个特征向量。
6. 数学符号描述：一般地，令D = {x1, x2, ..., xm}表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例 xi = (xi1; xi2; ...; xid)是d维样本空间 X 中的一个向量，xi ∈ X，其中 xij 是 xi 在第 j 个属性上的取值，d称为样本的维数。
7. 学习：从数据中学得模型的过程称为学习或训练，训练过程中使用的数据称为训练数据，其中每个样本称为一个训练样本，训练样本组成的集合称为训练集。
8. 标记：计算机需要知道训练样本对应的结果信息，才能知道自己的预测结果是否正确，从而不断进行自我调整。这里关于示例的结果信息称为标记（标签）；拥有了标记的信息示例称为样例。一般用（xi, yi）表示第 i 个样例，其中 yi ∈ Y是示例 xi 的标记，Y 是所有标记的集合，称为标记空间。
9. 分类与回归：若我们预测的是离散值，则此类任务称为分类；若预测的是连续值，则此类学习任务为回归。
10. 测试：学得模型后，使用该模型进行预测的过程称为测试，被预测的样本称为测试样本。
11. 聚类：将训练集中的样本可以分成若干组，每组称为一个簇，这些簇可能对应一些潜在的概念划分。这样的学习过程有助于我们了解数据内在的规律，能更为深入地分析数据建立基础。
12. 有/无监督学习：训练数据有标签则为监督学习，训练数据无标签则为无监督学习。分类和回归属于前者代表，聚类属于后者代表。
13. 泛化：学得模型适用于新样本的能力，称为泛化能力。泛化能力越强，学得的模型越好。
14. 假设空间：在训练模型的过程中所有假设组成的空间称为假设空间，简单来讲就是属性所有可能取值组成的可能样本空间，用 H 表示。我们可以把学习过程看作一个在假设空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设。
15. 版本空间：与已知数据集一致的所有假设的子集集合。
16. 奥卡姆剃刀原则：若有多个假设与观察一致，选择最简单的那个。
17. NFL定理：无论学习算法Ea多么聪明，学习算法Eb多么笨拙，它们的期望性能是相同的。该定理的意义在于让我们认识到脱离具体问题，空泛地谈论什么学习算法更好毫无意义。

【西瓜书读书笔记】第一章 绪论

一、机器学习研究内容

二、基本术语

【西瓜书读书笔记】第一章绪论