Rickduck

未归档机器学习

未归档

JavaEE(9) Java知识及应用(1) [HDU](1) [leetcode]刷题指南(4) [牛客竞赛](2) 数据结构(4) 算法(1) 网课学习(2)

/ 注册

机器学习

779 浏览 0 回复 2019-09-30

Rickduck

+关注

有监督学习

定义：有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
特征：有标签，一组数据对应一组输出。
例如：
- 回归问题 (连续输出)
- 分类问题（二分类）（离散输出）
  
  如何选择拟合函数。

无监督学习

定义：无监督学习是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。
特征：无标签，算法自动给出分类簇（cluster）
例如：
- 聚类问题（新闻专题、市场细分）
- 鸡尾酒聚会（分离混合音频）

线性模型（单变量线性回归Linear regression为例）

步骤
训练集
- m ：训练集样本大小
- x's ：输入变量（input）
- y's ：输出变量（output）
- h(x) ：假设函数（hypothesis）
- 模型参数 $图片说明$ （Parameter）
最小化（minimize）
- $代价函数$ 为代价函数
- $代价函数$
- 使预测值和实际值误差平方和最小化，找到误差平方和的 $\frac{1}{2m}$ 最小的 $图片说明$ [线性回归]
- 简化模型（单变量）
- 左侧代表预测函数，右侧代表代价函数，目的是找到
- 未简化模型（双变量为例）：左侧代表预测函数，右侧代表代价函数（等高线表示contour plots）目的是找到一组 $图片说明$ 使得代价函数最小，预测函数拟合数据。
- 右侧代价函数的3D图像

最小化代价函数算法（Batch梯度下降（General Algorithm））

特点
- 迭代算法，不仅适用于线性函数也适用于其他函数
- 收敛于局部最小值
- 参数 $图片说明$ 同步更新
- Batch梯度下降：每一步梯度下降都遍历整个训练集样本，计算偏导数，计算的是训练样本m的总和
符号
- $学习率$ ：学习率
- $theta$ ：第j个参数
- $图片说明$ ：导数项
思路
1.初始化参数 $图片说明$ 【init】
2.不停改变 $图片说明$ 直到找到使代价函数最小化的 $图片说明$ 【update】
原理
参数更新的函数表示：
$图片说明$
梯度下降图像：
自动调整，最终收敛于局部最小值，即偏导数等于零的情况。

特征缩放

不同特征的取值处于一个相近的范围内。
方法：
- 均值归一化
  $图片说明$

总结
数据可视化 -> 拟合-> 找到预测函数 ->代价函数最小化找到参数（梯度下降） ->

举报

收藏

赞

评论加载中...