机器学习的介绍

机器学习技术不断的进步，应⽤相当⼴泛,例如推荐系统，定向⼴告，需求预测，垃圾邮件过滤，医学诊断，⾃然语⾔处理，搜索引擎，欺诈检测，证券分析，视觉识别，语⾳识别，⼿写识别，频率识别等等。

⼀、机器学习架构

机器学习（Machine Learning）通过算法、使⽤历史数据进⾏训练，训练完成后会产⽣模型。未来当有新的数据提供时，我们可以使⽤训练产⽣的模型进⾏预测。
机器学习训练⽤的数据是由Feature、Label组成的。

Feature :数据的特征,也叫做特征列，例如湿度、⻛向、季节、⽓压。
Label：数据的标签，也叫做⽬标值，例如降⾬（0.不会下⾬，1.会下⾬），天⽓状况（1.晴天，2.⾬天，3.阴天，4.雾天）

（1）训练阶段（Training）

训练数据是过去累计的历史数据，可能是⽂本⽂件、数据库⽂件或者是其它的来源。经过Feature Extraction（特征提取），产⽣Feature（数据特征）于Label（预测⽬标），然后经过机器学习算法的训练后产⽣模型。

（2）预测阶段（Predict）

新输⼊的数据，经过Feature Extraction（特征提取）产⽣Feature（数据特征），使⽤训练完成的模型进⾏预测，最后产⽣预测结果。

⼆、机器学习的分类

（1）有监督学习

对于有监督的学习（Supervised Learning），从现有数据我们希望预测的答案有下列分类。

⼆元分类：我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征，希望预测当天是否会下⾬（0.不会下⾬，1.会下⾬）。⽬标Label只有两种选项。
多元分类：我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征，希望预测当天的天⽓（1.晴天，2.⾬天，3.阴天，4.雾天）。⽬标Label有多个选项。
回归分析：我们已知湿度、⻛向、⻛速、季节、⽓压等数据特征，希望预测当天的⽓温。⽬标Label是⼀个连续值，是⼀种⽅程的计算⽅法。

（2）⽆监督学习

对于⽆监督的学习（Unsupervised Learning），从现有的数据我们不知道要预测的答案，所以没有Label（预测的⽬标）。

cluster聚类分析：的⽬的是将数据分成⼏个相异性最⼤的群组，⽽群组内的相似度最⾼。

（3）机器学习算法类别概括图表

三、机器学习的四个阶段

（1）数据准备阶段

原始数据（可能是⽂本⽂件、数据库或其它来源）经过数据转类，提取特征字段与标签字段，产⽣机器学习所需要
的格式，然后将数据以随机⽅式分为3部分（trainData、validationData、testData）并返回数据，供下⼀阶段训
练评估使⽤。

（2）训练评估阶段

我们将使⽤ trainData数据进⾏训练，并产⽣模型，然后使⽤validationData验证模型的准确率。这个过程要重复很多次才能够找出最佳的参数的组合。评估⽅式：⼆元分类使⽤AUC、多元回归使⽤accuracy、回归分析使⽤RMSE。训练评估完成后，会成产⽣⼀个最好的模型bestModel。

（3）测试阶段

之前阶段产⽣了最佳模型bestModel，我们会使⽤另外⼀组数据testData再次测试，以避免overfitting(过拟合)的问题。如果训练评估阶段准确度很⾼，但是测试阶段的准确度很低，代表可能有overfitting的问题。如果测试与训练评估阶段的结果准确度差异不⼤，代表没有没有overfitting问题。

（4）预测阶段

新输⼊的数据，经过Feature Extraction（特征提取）产⽣Feature（特征），使⽤训练完成的最佳模型，也就是bestModel进⾏预测，最后产⽣⽐较不错的预测结果。

初学者必读：机器学习的完整介绍和入门，看不懂你打我

文章目录