模型表示

参考视频: 2 - 1 - Model Representation (8 min).mkv
第一个算法:线性回归
例子:预测房屋价格 ,我们要使用一个数据集,包含一个市区的房屋价格。根据不同房屋尺寸所售的价格,画出我们的数据集。预测一个房子的价格,可以构建一个模型。
比如用一条直线,这样就可以去预测。这是监督学习算法的一个例子图片说明

它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格。
另一种监督学习的方式,是
分类问题
例如,我们正在寻找癌症肿瘤,并想要确定肿瘤是良性的还是恶性的,这就是0/1离散输出的问题。更进一步来说,在监督学习中我们有一个数据集,这个数据集被称训练集。

用小写的m来表示训练样本的数目
以之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示图片说明
我们将要用来描述这个回归问题的标记如下:

m代表训练集中实例的数量

x代表特征/输入变量

y代表目标变量/输出变量

(x,y)代表训练集中的实例

(xi,yi)代表第i个观察实例

h代表学习算法的解决方案或函数也称为假设(hypothesis)
图片说明
这是一个监督学习算法的工作方式,将训练集里房屋的价格给我们的学习算法,学习算法工作完以后会输出一个函数,通常用h表示。
我将选择最初的使用规则h代表hypothesis,因而,要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入给h,预测出该房屋的交易价格作为输出变量输出为结果。那么,对于我们的房价预测问题,我们该如何表达h
一种方式是h=ax+b只输入一个特征/输入变量,因此这样 的问题被叫做单变量线性回归问题