1:机器学习(Machine Learning):学习完概念我们得知此定义不可顾名思义,它并非像人一样会自主学习,仍然是按照人预设的指令执行程序。

2:机器学习模型:是机器学习算法产出的结果。可以这样理解,输入经过模型然后有输出(有时无),在有(数据)输入输出的情况下,反复训练,使模型能精准反映该映射。值得注意的是,在样本数据不同的情况下,模型会不同。

3:机器学习按训练方式分类(有监督和无监督以及半监督)
a:有监督有真值输出,给定输真值出使输入通过模型后与真值输出匹配;
b:无监督无真值输出。无真值输出并不意味着无意义,通常可以挖掘数据中潜在的联系,联系分为两类:聚类(即将样本聚成组),关联(寻找样本间的关联模式)
c:考虑到标记样本通常耗费时间较长,让所有样本都被标记成本高,故可标记少量样本剩下不标记然后进行半监督。

4:机器学习按训练结果分类(分类和回归)
a:当机器学习输出是离散值,即为分类(如预测用户是男是女)
b:当机器学习输出值是连续值,即为回归 (如预测用户评分)
c:通过逻辑回归可以将分类模型转换成回归模型。(该用户75%的概率是男生,25%概率是女生)

5:特征工程(如何展示和表现数据)
特征工程是最大限度地从原始数据中提取特征以供算法和模型使用的一种工程活动。
“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”

6:工作流程(以数据为中心)
将样本数据分为测试数据和训练数据,用训练数据进行训练,训练完毕之后用测试数据检测准确率。并可以在不准确的情况下进行超参数调优(此举可能会对模型底层参数造成影响)。

7:评价机器模型(拟合,欠拟合,过拟合)
a:拟合:能很好的描述输入输出
b:欠拟合:不能很好的描述输入输出
c:过拟合:在样本范围里很好描述,但不具备拓展性。

8:机器学习的应用
智能助理(微软小冰等等),搜索引擎过滤,商品推荐,智能客服,视频监控等等。

ML 算法之所以存在,是因为它们能够解决非 ML 算法无法解决的问题,而且还提供了非 ML 算法所不具备的优势。

9:机器学习的缺点

概括地说,ML不是灵丹妙药,因为它常常无法达到 100% 精确,而且我们不能逐例更正 ML 模型,在某些情况下,我们甚至无法对 ML 模型进行推理

图片说明