1.机器学习

   两条定义:



2.监督学习

   给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。

   监督学习的分类:回归(Regression)、分类(Classification

   回归:预测一个连续值,输入变量和输出用一个函数对应。

   分类:预测一个离散值,输入变量和离散的类别对应。


   举例:

   回归:对房地产数据也测房屋价格,面积已给定,价格可以看做是面积的函数,是一个连续的输出值。

          

  

   分类:通过肿瘤的大小预测是恶性还是良性,这是一个分类问题,输出是0和1两个离散值。0意味着良性,1意味着恶性。当然输出的值可以不止两个,可以有四种,良性、第一类肿瘤、第二类肿瘤、第三类肿瘤。

  

   上面的例子里只有一个特征,就是肿瘤的大小。但有时候特征不止一个,可能有两个或多个。如下图,特征就有五个,年龄和肿瘤的大小,还有右边的三个特征。


3.无监督学习

   在无监督学习中,没有任何的标签或者是有相同的标签,已知数据集,但不知道怎么处理,也不知道每个数据点是什么。它的结果我们一般不知道,但是可以通过聚类的方式去提取一个结构。他会把数据分成不同的簇,所以也叫聚类算法。

  

   无监督学习中,我们给出一组数据,用聚类算法将这组数据分成两个不同的簇,如上面右图所示。


   举例:

   Google News搜集网上的新闻,并根据新闻的主体将其分为许多簇,同一簇的新闻放在一起。如下图所示:

  


   一组不同的人,我们去测量他们的基因对一个特定基因的表达成都,再根据结果用聚类算法将他们分为不同的类型。只给出数据,但我们并不知道是哪一种类型的人,典型的无监督学习,如下图所示。