<font color=red>**字体变为红色的代码**</font>
<font size=4>我是尺寸</font>

第二章 机器学习概述

  • 机器学习:通过数据来让机器算法进行学习.

2.1 基本概念

  • 并不是所有的样本特征(属性)都是数值型,这种情况需要进行相关的转换.
  • 寻找最优的拟合函数的过程就是学习的过程,通过相关的学习算法来实现.

    机器学习系统的基本流程

    图片说明

2.2 机器学习的三个基本要素

  • 机器学习方法可以大致分为3个基本要素:模型、学习准则、优化算法.

2.2.1 模型

  • 不同机器学习任务的主要区别在于:模型的输出空间不同.
  • 假设空间:函数集合(目的是在这个函数集合中找到一个最有的拟合函数)

图片说明

  • 假设空间通常分为:线性和非线性两种,对应的模型就是线性模型和非线性模型.

线性模型

图片说明

非线性模型

图片说明

2.2.2 学习准则

  • 一个好的模型应该在所有的(x,y)的可能取值上都与真实映射函数y=g(x)一致.
    图片说明

  • 衡量模型好坏的标准:通过期望风险(expected risk).
    图片说明

2.2.2.1 损失函数

  • 损失函数是一个非负的实数函数.
  • 损失函数的目的:用来量化模型预测和真实标签之间的差异.

0-1损失函数
图片说明

  • 0-1损失函数的不足:数学性质不好,不连续且导数为0.
  • 导数为0====>难以优化,因此要选用连续可微的损失函数进行替代.

图片说明

  • 平方损失函数适用于标签为实数值的任务中.
  • 因此,平方损失函数不用在分类任务中.

图片说明

  • cross-entropy loss function 用于分类任务.
  • 对于两个概率分布,一般可以使用交叉熵来衡量它们的差异.

图片说明

交叉熵损失函数度量的一个例子

图片说明

  • Hinge损失函数:一般用于二分类任务中.

图片说明

2.2.2.2 风险最小化准则

  • 经验风险最小化:期望风险度量的是预测模型以及真实模型之间的期望差值,无法做到.但是,我们可以将经过预测模型输出的y值与真实的y值进行差异化度量.这就是经验风险.

图片说明

  • 大数定律的核心内容:均值在数量无限大的时候会依概率收敛到均值.

  • 因此,在样本数量无限大的时候,经验风险会收敛于期望风险.

  • 经验风险最小化准则很容易导致模型在训练集上错误率很低,但是在未知数据上的错误率很高.(过拟合)

  • 训练集往往只是全部数据集的一个子集,也常常会带有噪声,不能很好的反映全部数据集的真实分布.

  • 过拟合定义

图片说明

模型过拟合的两个常见原因

  • 数据量太小并且存在噪音

  • 模型表达能力太强.

  • 解决过拟合的方法:加入模型参数的正则化项.

  • 加入正则化来限制模型的能力,使其不要过度地最小化经验风险.

图片说明

  • 具体数学原理还不是太明白.

补充材料:关于正则化的相关面试问题

  • 怎样防止模型的过拟合?
  • 正则化是如何防止模型的过拟合的?(从数学的角度)
  • L1正则化为什么具有稀疏性?并且可以进行特征选择?
  • 加上模型正则化就是指在经验风险最小化的基础上加上了对模型参数的惩罚项,不让参数过于复杂.
  • 加上正则化就是对模型加上了限制条件.(怎样理解???)

图片说明

  • 结构风险最小化就是在经验风险最小化的基础上加上正则化项.

图片说明

解释正则化很透彻的文章:

(L1正则化与L2正则化 - bingo酱的文章 - 知乎 https://zhuanlan.zhihu.com/p/35356992)

  • L1正则化项就是所有参数的绝对值之和.
  • L2正则化项就是所有参数的平方之和.

模型能力的三种表现形式

图片说明

2.2.3 优化算法

  • 算法优化通常包含两种:参数优化和超参数优化.
  • 常见的超参数包括:聚类算法的类别个数、梯度下降的步长、正则化项的系数、神经网络的层数等.