有监督学习

  • 定义: 有监督学习是从标签化训练数据集中推断出函数的机器学习任务。

  • 特征:有标签,一组数据对应一组输出。

  • 例如:

    • 回归问题 (连续输出)
    • 分类问题(二分类)(离散输出)
      分类问题
      如何选择拟合函数。

无监督学习

  • 定义: 无监督学习是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。
  • 特征:无标签,算法自动给出分类簇(cluster)
  • 例如:
    • 聚类问题(新闻专题、市场细分)
      聚类问题
    • 鸡尾酒聚会(分离混合音频)

线性模型(单变量线性回归Linear regression为例)

  • 步骤
    图片说明

  • 训练集

    • m : 训练集样本大小
    • x's : 输入变量(input)
    • y's : 输出变量 (output)
  • 介绍

    • h(x) : 假设函数(hypothesis)
      • 图片说明
    • 模型参数图片说明 (Parameter)
  • 最小化(minimize)

    • 代价函数 为代价函数
    • 代价函数
    • 使预测值和实际值误差平方和最小化,找到误差平方和的 最小的图片说明 [线性回归]
    • 简化模型(单变量)
      总结
    • 左侧代表预测函数,右侧代表代价函数,目的是找到
      最小化
    • 未简化模型(双变量为例) : 左侧代表预测函数,右侧代表代价函数(等高线表示contour plots)目的是找到一组图片说明使得代价函数最小,预测函数拟合数据。
      图片说明
    • 右侧代价函数的3D图像
      3D图像

最小化代价函数算法(Batch梯度下降(General Algorithm))

  • 特点

    • 迭代算法,不仅适用于线性函数也适用于其他函数
    • 收敛于局部最小值
    • 参数图片说明同步更新
    • Batch梯度下降 : 每一步梯度下降都遍历整个训练集样本,计算偏导数,计算的是训练样本m的总和
  • 符号

    • 学习率 : 学习率
    • theta : 第j个参数
    • 图片说明 : 导数项
  • 思路
    1.初始化参数图片说明 【init】
    2.不停改变图片说明直到找到使代价函数最小化的图片说明【update】
    示例
    图片说明

  • 原理
    图片说明

  • 参数更新的函数表示:
    图片说明

  • 梯度下降图像:
    示例

  • 自动调整,最终收敛于局部最小值,即偏导数等于零的情况。
    图片说明

特征缩放

  • 不同特征的取值处于一个相近的范围内。
    图片说明

  • 方法:

    • 均值归一化
      图片说明
  • 总结
    数据可视化 -> 拟合-> 找到预测函数 ->代价函数最小化找到参数(梯度下降) ->