机器学习的介绍


机器学习技术不断的进步,应⽤相当⼴泛,例如推荐系统,定向⼴告,需求预测,垃圾邮件过滤,医学诊断,⾃然语⾔处理,搜索引擎,欺诈检测,证券分析,视觉识别,语⾳识别,⼿写识别,频率识别等等。

⼀、机器学习架构

机器学习(Machine Learning)通过算法、使⽤历史数据进⾏训练,训练完成后会产⽣模型。未来当有新的数据提供时,我们可以使⽤训练产⽣的模型进⾏预测。
机器学习训练⽤的数据是由Feature、Label组成的。

  • Feature :数据的特征,也叫做特征列,例如湿度、⻛向、季节、⽓压。
  • Label:数据的标签,也叫做⽬标值,例如降⾬(0.不会下⾬,1.会下⾬),天⽓状况(1.晴天,2.⾬天,3.阴天,4.雾天)

(1)训练阶段(Training)

训练数据是过去累计的历史数据,可能是⽂本⽂件、数据库⽂件或者是其它的来源。经过Feature Extraction(特征提取),产⽣Feature(数据特征)于Label(预测⽬标),然后经过机器学习算法的训练后产⽣模型。

(2)预测阶段(Predict)

新输⼊的数据,经过Feature Extraction(特征提取)产⽣Feature(数据特征),使⽤训练完成的模型进⾏预测,最后产⽣预测结果。

⼆、机器学习的分类

(1)有监督学习

对于有监督的学习(Supervised Learning),从现有数据我们希望预测的答案有下列分类。

  • ⼆元分类:我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征,希望预测当天是否会下⾬(0.不会下⾬,1.会下⾬)。⽬标Label只有两种选项。
  • 多元分类:我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征,希望预测当天的天⽓(1.晴天,2.⾬天,3.阴天,4.雾天)。⽬标Label有多个选项。
  • 回归分析:我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征,希望预测当天的⽓温。⽬标Label是⼀个连续值,是⼀种⽅程的计算⽅法。

(2)⽆监督学习

对于⽆监督的学习(Unsupervised Learning),从现有的数据我们不知道要预测的答案,所以没有Label(预测的⽬标)。

  • cluster聚类分析:的⽬的是将数据分成⼏个相异性最⼤的群组,⽽群组内的相似度最⾼。

(3)机器学习算法类别概括图表


三、机器学习的四个阶段

(1)数据准备阶段

原始数据(可能是⽂本⽂件、数据库或其它来源)经过数据转类,提取特征字段与标签字段,产⽣机器学习所需要
的格式,然后将数据以随机⽅式分为3部分(trainData、validationData、testData)并返回数据,供下⼀阶段训
练评估使⽤。

(2)训练评估阶段

我们将使⽤ trainData数据进⾏训练,并产⽣模型,然后使⽤validationData验证模型的准确率。这个过程要重复很多次才能够找出最佳的参数的组合。评估⽅式:⼆元分类使⽤AUC、多元回归使⽤accuracy、回归分析使⽤RMSE。训练评估完成后,会成产⽣⼀个最好的模型bestModel。

(3)测试阶段

之前阶段产⽣了最佳模型bestModel,我们会使⽤另外⼀组数据testData再次测试,以避免overfitting(过拟合)的问题。如果训练评估阶段准确度很⾼,但是测试阶段的准确度很低,代表可能有overfitting的问题。如果测试与训练评估阶段的结果准确度差异不⼤,代表没有没有overfitting问题。

(4)预测阶段

新输⼊的数据,经过Feature Extraction(特征提取)产⽣Feature(特征),使⽤训练完成的最佳模型,也就是bestModel进⾏预测,最后产⽣⽐较不错的预测结果。