文章目录
机器学习的介绍
机器学习技术不断的进步,应⽤相当⼴泛,例如推荐系统,定向⼴告,需求预测,垃圾邮件过滤,医学诊断,⾃然语⾔处理,搜索引擎,欺诈检测,证券分析,视觉识别,语⾳识别,⼿写识别,频率识别等等。
⼀、机器学习架构
机器学习(Machine Learning)通过算法、使⽤历史数据进⾏训练,训练完成后会产⽣模型。未来当有新的数据提供时,我们可以使⽤训练产⽣的模型进⾏预测。
机器学习训练⽤的数据是由Feature、Label组成的。
- Feature :数据的特征,也叫做特征列,例如湿度、⻛向、季节、⽓压。
- Label:数据的标签,也叫做⽬标值,例如降⾬(0.不会下⾬,1.会下⾬),天⽓状况(1.晴天,2.⾬天,3.阴天,4.雾天)
(1)训练阶段(Training)
训练数据是过去累计的历史数据,可能是⽂本⽂件、数据库⽂件或者是其它的来源。经过Feature Extraction(特征提取),产⽣Feature(数据特征)于Label(预测⽬标),然后经过机器学习算法的训练后产⽣模型。
(2)预测阶段(Predict)
新输⼊的数据,经过Feature Extraction(特征提取)产⽣Feature(数据特征),使⽤训练完成的模型进⾏预测,最后产⽣预测结果。
⼆、机器学习的分类
(1)有监督学习
对于有监督的学习(Supervised Learning),从现有数据我们希望预测的答案有下列分类。
- ⼆元分类:我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征,希望预测当天是否会下⾬(0.不会下⾬,1.会下⾬)。⽬标Label只有两种选项。
- 多元分类:我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征,希望预测当天的天⽓(1.晴天,2.⾬天,3.阴天,4.雾天)。⽬标Label有多个选项。
- 回归分析:我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征,希望预测当天的⽓温。⽬标Label是⼀个连续值,是⼀种⽅程的计算⽅法。
(2)⽆监督学习
对于⽆监督的学习(Unsupervised Learning),从现有的数据我们不知道要预测的答案,所以没有Label(预测的⽬标)。
- cluster聚类分析:的⽬的是将数据分成⼏个相异性最⼤的群组,⽽群组内的相似度最⾼。
(3)机器学习算法类别概括图表
三、机器学习的四个阶段
(1)数据准备阶段
原始数据(可能是⽂本⽂件、数据库或其它来源)经过数据转类,提取特征字段与标签字段,产⽣机器学习所需要
的格式,然后将数据以随机⽅式分为3部分(trainData、validationData、testData)并返回数据,供下⼀阶段训
练评估使⽤。
(2)训练评估阶段
我们将使⽤ trainData数据进⾏训练,并产⽣模型,然后使⽤validationData验证模型的准确率。这个过程要重复很多次才能够找出最佳的参数的组合。评估⽅式:⼆元分类使⽤AUC、多元回归使⽤accuracy、回归分析使⽤RMSE。训练评估完成后,会成产⽣⼀个最好的模型bestModel。
(3)测试阶段
之前阶段产⽣了最佳模型bestModel,我们会使⽤另外⼀组数据testData再次测试,以避免overfitting(过拟合)的问题。如果训练评估阶段准确度很⾼,但是测试阶段的准确度很低,代表可能有overfitting的问题。如果测试与训练评估阶段的结果准确度差异不⼤,代表没有没有overfitting问题。
(4)预测阶段
新输⼊的数据,经过Feature Extraction(特征提取)产⽣Feature(特征),使⽤训练完成的最佳模型,也就是bestModel进⾏预测,最后产⽣⽐较不错的预测结果。